我有一个具有以下结构的数据框: Cluster 1 Cluster 2 Cluster 3ID Name Revenue ID Name Revenue ID Name Revenue1234 John 123 1235 Jane 761 1237 Mary 2761376 Peter 254 1297 Paul 439 1425 David 532但是,我不确定如何执行基本功能,例如列.unique或.value_count列,因为我不确定如何在代码中引用它们...例如,如果我想查看 Cluster 2 Name 列中的唯一值,我将如何编写代码?通常我会打字df.Name.unique(),或者df['Name'].unique()这些都不起作用。我的原始数据如下所示:ID Name Revenue Cluster1234 John 123 11235 Jane 761 21237 Mary 276 31297 Paul 439 21376 Peter 254 11425 David 532 3我用这段代码让我明白了我现在的观点:df = (df.set_index([df.groupby('Cluster').cumcount(), 'Cluster']) .unstack() .swaplevel(1,0, axis=1) .sort_index(axis=1) .rename(columns=lambda x: f'Cluster {x}', level=0))```
1 回答
肥皂起泡泡
TA贡献1829条经验 获得超6个赞
您只需要按顺序按索引进行子集化。
因此,您的第一步是对集群 2 进行子集化,然后获取唯一名称。
例如:
df["Cluster 2"]["Names"].unique()
添加回答
举报
0/150
提交
取消
