为了账号安全,请及时绑定邮箱和手机立即绑定

Pandas-创建差异矩阵的数量

Pandas-创建差异矩阵的数量

皈依舞 2023-03-22 10:51:11
我有这样的数据框    L1  L2  L3  L4  L5A   1   2   3   4   5B   1   2   4   3   5C   1   3   3   2   1我想计算行之间的差异数,例如A和B之间的差异数是2,A和C是3,B和C是4。我真正想要的是一个差异矩阵,例如    A   B   CA   0   2   3B   2   0   4C   3   4   0
查看完整描述

1 回答

?
MMMHUHU

TA贡献1834条经验 获得超8个赞

第一个循环解决方案是迭代每一行,通过 DataFrame 进行比较sum:


df = df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)

print (df)

   A  B  C

A  0  2  3

B  2  0  4

C  3  4  0

或者为了提高性能,将 numpy 中的值与 3d 数组的广播进行比较,sum 和 last 使用 DataFrame 构造函数:


a = df.to_numpy()

out = pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)

print (out)

   A  B  C

A  0  2  3

B  2  0  4

C  3  4  0

np.random.seed(123)

df = pd.DataFrame( np.random.randint(20, size=(100, 500)))

print (df)



In [119]: %%timeit

     ...: df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)

     ...: 

     ...: 

12.8 s ± 1.02 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [120]: %%timeit

     ...: a = df.to_numpy()

     ...: pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)

     ...: 

     ...: 

14.6 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


查看完整回答
反对 回复 2023-03-22
  • 1 回答
  • 0 关注
  • 116 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号