为了账号安全,请及时绑定邮箱和手机立即绑定

pandas 数据帧的共现矩阵

pandas 数据帧的共现矩阵

四季花海 2023-06-27 13:28:02
问题我有一个 pandas 数据框,我需要计算数据框中每个唯一条目出现在每个其他条目的同一行中的行数。可重复的设置import pandas as pd import numpy as np数据框:df = pd.DataFrame({'a': ['A', 'A', 'B', 'B'],                   'b': ['B', 'C', 'B', 'B'],                   'c': ['C', 'A', 'C', 'A'],                   'd': ['B', 'D', 'B', 'A']},                   index=[0, 1, 2, 3])IE:+----+-----+-----+-----+-----+|    | a   | b   | c   | d   ||----+-----+-----+-----+-----||  0 | A   | B   | C   | B   ||  1 | A   | C   | A   | D   ||  2 | B   | B   | C   | B   ||  3 | B   | B   | A   | A   |+----+-----+-----+-----+-----+我尝试过的我尝试使用answer 中的代码,& 替换这些变量:document = [list(each) for each in df.values]names = list(np.unique(df.values))它给出了错误的结果:  A B C DA 4 6 3 2B 6 10 5 0C 3 5 0 1D 2 0 1 0它是基于迭代的,所以我希望有更好的解决方案。预期输出+----+-----+-----+-----+-----+|    |   A |   B |   C |   D ||----+-----+-----+-----+-----|| A  | nan |   2 |   2 |   1 || B  |   2 | nan |   2 |   0 || C  |   2 |   2 | nan |   1 || D  |   1 |   0 |   1 | nan |+----+-----+-----+-----+-----+有些2行同时出现A& B,因此单元格A行列中的B值为2。有些2行同时出现A& C,因此单元格A行列中的C值为2。问题如何在 Pandas 中轻松获得行共现矩阵?如果我不必循环遍历这些值,那就太好了。
查看完整描述

1 回答

?
守着星空守着你

TA贡献1799条经验 获得超8个赞

我们可以做stack然后get_dummies有价值dot


s=df.stack().str.get_dummies().sum(level=0).ne(0).astype(int)

s=s.T.dot(s).astype(float)

np.fill_diagonal(s.values, np.nan)

s

Out[33]: 

     A    B    C    D

A  NaN  2.0  2.0  1.0

B  2.0  NaN  2.0  0.0

C  2.0  2.0  NaN  1.0

D  1.0  0.0  1.0  NaN


查看完整回答
反对 回复 2023-06-27
  • 1 回答
  • 0 关注
  • 62 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信