为了账号安全,请及时绑定邮箱和手机立即绑定

为什么data.tables的X [Y]联接不允许完全外部联接或左联接?

为什么data.tables的X [Y]联接不允许完全外部联接或左联接?

函数式编程 2019-10-23 16:07:47
这是关于data.table连接语法的一个哲学问题。我发现data.tables有越来越多的用途,但仍在学习...X[Y]data.tables的联接格式非常简洁,方便且有效,但是据我所知,它仅支持内部联接和正确的外部联接。要获得左侧或完全外部联接,我需要使用merge:X[Y, nomatch = NA] -Y中的所有行-右外部联接(默认)X[Y, nomatch = 0] -仅X和Y都匹配的行-内部联接merge(X, Y, all = TRUE) -X和Y的所有行-完全外部联接merge(X, Y, all.x = TRUE) -X中的所有行-左外部联接在我看来,如果X[Y]连接格式支持所有4种连接类型,那将很方便。是否仅支持两种类型的联接?对我来说,nomatch = 0和nomatch = NA参数值对于正在执行的动作不是很直观。这是我更容易理解和记忆的merge语法:all = TRUE,all.x = TRUE和all.y = TRUE。由于X[Y]操作merge远不止于match,因此为什么不对merge联接使用语法而不是match函数的nomatch参数呢?以下是4种连接类型的代码示例:# sample X and Y data.tableslibrary(data.table)X <- data.table(t = 1:4, a = (1:4)^2)setkey(X, t)X#    t  a# 1: 1  1# 2: 2  4# 3: 3  9# 4: 4 16Y <- data.table(t = 3:6, b = (3:6)^2)setkey(Y, t)Y#    t  b# 1: 3  9# 2: 4 16# 3: 5 25# 4: 6 36# all rows from Y - right outer joinX[Y]  # default#  t  a  b# 1: 3  9  9# 2: 4 16 16# 3: 5 NA 25# 4: 6 NA 36X[Y, nomatch = NA]  # same as above#    t  a  b# 1: 3  9  9# 2: 4 16 16# 3: 5 NA 25# 4: 6 NA 36merge(X, Y, by = "t", all.y = TRUE)  # same as above#    t  a  b# 1: 3  9  9# 2: 4 16 16# 3: 5 NA 25# 4: 6 NA 36identical(X[Y], merge(X, Y, by = "t", all.y = TRUE))# [1] TRUE# only rows in both X and Y - inner joinX[Y, nomatch = 0]  #    t  a  b# 1: 3  9  9# 2: 4 16 16merge(X, Y, by = "t")  # same as above#    t  a  b# 1: 3  9  9# 2: 4 16 16merge(X, Y, by = "t", all = FALSE)  # same as above#    t  a  b# 1: 3  9  9# 2: 4 16 16identical( X[Y, nomatch = 0], merge(X, Y, by = "t", all = FALSE) )# [1] TRUE# all rows from X - left outer joinmerge(X, Y, by = "t", all.x = TRUE)#    t  a  b# 1: 1  1 NA# 2: 2  4 NA# 3: 3  9  9# 4: 4 16 16# all rows from both X and Y - full outer joinmerge(X, Y, by = "t", all = TRUE)#    t  a  b# 1: 1  1 NA# 2: 2  4 NA# 3: 3  9  9# 4: 4 16 16# 5: 5 NA 25# 6: 6 NA 36更新:data.table v1.9.6引入了on=语法,该语法允许临时连接除主键以外的其他字段。jangorecki对问题的答案如何连接(合并)数据框(内部,外部,左侧,右侧)?提供了data.table可以处理的其他联接类型的一些示例。
查看完整描述

3 回答

?
慕村225694

TA贡献1880条经验 获得超4个赞

引用data.table FAQ 1.11 X[Y]和之间有什么区别merge(X, Y)?


X[Y] 是联接,使用Y(或Y的键,如果有的话)作为索引查找X的行。


Y[X] 是一个联接,使用X(或X的键,如果有的话)查找Y的行


merge(X,Y)同时执行两种方式。X[Y]和的行数Y[X]通常不同,而merge(X,Y)和返回的行数merge(Y,X)相同。


但是错过了要点。大多数任务需要在连接或合并后对数据执行某些操作。为什么合并所有数据列,然后只使用它们的一小部分?您可能会建议  merge(X[,ColsNeeded1],Y[,ColsNeeded2]),但这要求程序员确定需要哪些列。X[Y,jdata.table中的]为您完成所有这些工作。在编写时X[Y,sum(foo*bar)],data.table会自动检查j表达式以查看其使用的列。它只会将这些列作为子集;其他被忽略。仅为j使用的列创建内存,并且Y列在每个组的上下文中均享受标准的R回收规则。假设fooin中X,bar在中Y(以及中的20个其他列Y)。是不是X[Y,sum(foo*bar)] 比合并所有浪费的子集更快地编写程序和更快地运行?


如果您想要左外连接 X[Y]


le <- Y[X]

mallx <- merge(X, Y, all.x = T)

# the column order is different so change to be the same as `merge`

setcolorder(le, names(mallx))

identical(le, mallx)

# [1] TRUE

如果要完全外部联接


# the unique values for the keys over both data sets

unique_keys <- unique(c(X[,t], Y[,t]))

Y[X[J(unique_keys)]]

##   t  b  a

## 1: 1 NA  1

## 2: 2 NA  4

## 3: 3  9  9

## 4: 4 16 16

## 5: 5 25 NA

## 6: 6 36 NA


# The following will give the same with the column order X,Y

X[Y[J(unique_keys)]]


查看完整回答
反对 回复 2019-10-23
  • 3 回答
  • 0 关注
  • 520 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信