data.table连接，然后将列添加到现有的data.frame中，而无需重新复制

我有两个data.tables，X（3m行，约500列）和Y（100行，两列）。set.seed(1)X <- data.table( a=letters, b=letters, c=letters, g=sample(c(1:5,7),length(letters),replace=TRUE), key="g" )Y <- data.table( z=runif(6), g=1:6, key="g" )我想在X上做一个左外部连接，这Y[X]要归功于：为什么data.tables的X [Y]联接不允许完全外部联接或左联接？但是我想添加新列X 而不进行复制X（因为它很大）。显然，类似的东西很X <- Y[X]有效，但除非data.table比我认为它聪明得多（而且我认为它有很多曲折！），否则我相信它会复制整个X。X[ , z:= Y[X,z]$z ] 可以，但是很笨拙，无法很好地扩展到不止一列。如何以有效的方式（无论是在副本方面还是在程序员时间方面）将合并结果存储回保留的data.table中？

查看完整描述

2 回答

撒科打诨

TA贡献1934条经验获得超2个赞

这很容易做到：

X[Y, z := i.z]

之所以起作用，是因为Y[X]和之间的唯一区别X[Y]是当某些元素不在in时Y，在这种情况下，您可能想z成为NA，上面的赋值恰好可以做到。

它对于许多变量也同样适用：

X[Y, `:=`(z1 = i.z1, z2 = i.z2, ...)]

由于您需要进行操作Y[X]，因此可以添加参数nomatch=0（如@mnel所指出的），以便对于X不包含Y的键值的那些对象不获取NA。即：

X[Y, z := i.z, nomatch=0]

从NEWS获取data.table

**********************************************

** **

** CHANGES IN DATA.TABLE VERSION 1.7.10 **

** **

**********************************************

新的功能

o The prefix i. can now be used in j to refer to join inherited

columns of i that are otherwise masked by columns in x with

the same name.

反对回复 2019-12-04

呼如林

TA贡献1798条经验获得超3个赞

除了上述答案外，您还可以执行（v1.9.6+）：

require(data.table) # v1.9.6+

X[Y, (colNames) := mget(paste0("i.", colNames))]

colNames字符向量在哪里列出您想要的列Y。这样，当您要添加许多列时，您可以有效地选择要添加的列（colNames从的子集定义names(Y)）。

另外，您可以将其与新on=参数（来自v1.9.6+）组合为：

# ad-hoc joins using 'on=' instead of setting keys

require(data.table) # v1.9.6+

X[Y, (colNames) := mget(paste0("i.", colNames)), on = "g"]

值得在(colNames) := mget(colNames)这里使用akrun的策略：更新R中的数据帧行。

反对回复 2019-12-04

热搜

最近搜索清空

data.table连接，然后将列添加到现有的data.frame中，而无需重新复制

data.table连接，然后将列添加到现有的data.frame中，而无需重新复制

2 回答

添加回答