已解决430363个问题，去搜搜看，总会有你想问的

带data.table的一个组的子集

首页猿问带data.table的一个组的子集

带data.table的一个组的子集

R语言

翻阅古今 2019-06-10 17:17:37

带data.table的一个组的子集假设我有一个包含一些棒球运动员的数据表：library(plyr)library(data.table)bdt <- as.data.table(baseball)对于每个玩家(由id给出)，我希望找到与他们玩游戏最多的年份相对应的行。这在plyr中很简单：ddply(baseball, "id", subset, g == max(g))data.table的等效代码是什么？我试过：setkey(bdt, "id") bdt[g == max(g)] # only one rowbdt[g == max(g), by = id] # Error: 'by' or 'keyby' is supplied but not jbdt[, .SD[g == max(g)]] # only one row这样做是可行的：bdt[, .SD[g == max(g)], by = id]但它只比plyr快30%，说明它可能不是惯用的。

查看完整描述

1 回答

素胚勾勒不出你

TA贡献1827条经验获得超9个赞

这是快车data.table途径：

bdt[bdt[, .I[g == max(g)], by = id]$V1]

这避免了构造.SD，这是表达式中的瓶颈。

编辑：实际上，OP慢的主要原因不仅仅是.SD但是它以一种特殊的方式使用它-通过调用[.data.table，此时它的开销很大，因此在循环中运行它(当您执行by)累积了很大的惩罚。

反对回复 2019-06-10

1 回答
0 关注
480 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

带data.table的一个组的子集

带data.table的一个组的子集

1 回答

添加回答