为了账号安全,请及时绑定邮箱和手机立即绑定

更改分组依据并value_counts输出以映射到数据帧

更改分组依据并value_counts输出以映射到数据帧

慕田峪7331174 2022-09-27 16:10:39
我有一个场景,我试图按特定值过滤数据帧,并计算另一个标识符存在的次数。然后,我将其转换为字典并映射回数据帧。我遇到的问题是,生成的字典无法映射回数据帧,因为我正在向字典引入复杂性(额外的键?),我不知道如何避免它。我想一个简单的问题是:“如何在我的CELL_ID列上使用value_counts”,通过另一个名为Grid_Type的列进行过滤,并将结果映射回每个CELL_ID的所有单元格?到目前为止,我在做什么这可以计算包含CELL_ID的单元格数,但不允许我按Grid_Typedf['CELL_ID'].value_counts()z1 = z.to_dict()df['CELL_CNT'] = df['CELL_ID'].map(z1)这个简单示例的字典输出如下所示:7015988: 1, 7122961: 1, 6976792: 1我的代码不好这是我迄今为止一直在研究的 - 我希望能够返回计数,并按Grid_Type过滤。例如,我希望能够计算我在每个CELL_ID中看到“Spot”的次数。z = df[df.Grid_Type == 'Spot'].groupby('CELL_ID')['Grid_Type'].value_counts()z1 = z.to_dict()df['SPOT_CNT'] = df['CELL_ID'].map(z1)似乎在我尝试过滤的示例中,字典返回了一个更复杂的结果,其中包括Grid_Type。问题是,我只想将计数映射到Cell_ID。(7133691, 'Spot'): 3, (7133692, 'Spot'): 3, (7133693, 'Spot'): 2示例数据+---------+-----------+| CELL_ID | Grid_Type |+---------+-----------+|     001 | Spot      ||     001 | Square    ||     001 | Spot      ||     001 | Square    ||     001 | Square    ||     002 | Spot      ||     002 | Square    ||     002 | Square    ||     003 | Square    ||     003 | Spot      ||     003 | Spot      ||     003 | Spot      |+---------+-----------+预期结果+---------+-----------+----------+| CELL_ID | Grid_Type | SPOT_CNT |+---------+-----------+----------+|     001 | Spot      |        2 ||     001 | Square    |        2 ||     001 | Spot      |        2 ||     001 | Square    |        2 ||     001 | Square    |        2 ||     002 | Spot      |        1 ||     002 | Square    |        1 ||     002 | Square    |        1 ||     003 | Square    |        3 ||     003 | Spot      |        3 ||     003 | Spot      |        3 ||     003 | Spot      |        3 |+---------+-----------+----------+感谢您提供的任何帮助/
查看完整描述

2 回答

?
长风秋雁

TA贡献1757条经验 获得超7个赞

df = pd.read_csv('spot.txt', sep=r"[ ]{1,}", engine='python', dtype='object')


print(df)


    CELL_ID Grid_Type

0   001 Spot

1   001 Square

2   001 Spot

3   001 Square

4   001 Square

5   002 Spot

6   002 Square

7   002 Square

8   003 Square

9   003 Spot

10  003 Spot

11  003 Spot


df_gb = df['Grid_Type'].groupby([df['CELL_ID']]).value_counts()


print(df_gb)


    CELL_ID  Grid_Type

001      Square       3

         Spot         2

002      Square       2

         Spot         1

003      Spot         3

         Square       1

Name: Grid_Type, dtype: int64




df_gb_dict = df_gb.to_dict()


count_list = []


for idx, row in df.iterrows():

    for k, v in df_gb_dict.items():

        if k[0] == row['CELL_ID'] and k[1] == row['Grid_Type'] and row['Grid_Type'] == 'Spot':

            count_list.append([k[0], k[1], v])

        if k[0] == row['CELL_ID'] and k[1] == row['Grid_Type'] and row['Grid_Type'] == 'Square':

            count_list.append([k[0], k[1], df_gb_dict[(row['CELL_ID'], 'Spot')]])



new_df = pd.DataFrame(count_list, columns=['CELL_ID',  'Grid_Type', 'SPOT_CNT'])


new_df.sort_values(by='CELL_ID', inplace=True)


new_df.reset_index(drop=True)


print(new_df)


  CELL_ID Grid_Type  SPOT_CNT

0      001      Spot         2

1      001    Square         2

2      001      Spot         2

3      001    Square         2

4      001    Square         2

5      002      Spot         1

6      002    Square         1

7      002    Square         1

8      003    Square         3

9      003      Spot         3

10     003      Spot         3

11     003      Spot         3


查看完整回答
反对 回复 2022-09-27
?
慕姐8265434

TA贡献1813条经验 获得超2个赞

似乎你有一个答案,但我会用transe()来解决这个问题:

# set it up

df = pd.read_clipboard()

print(df)


    CELL_ID Grid_Type

0         1      Spot

1         1    Square

2         1      Spot

3         1    Square

4         1    Square

5         2      Spot

6         2    Square

7         2    Square

8         3    Square

9         3      Spot

10        3      Spot

11        3      Spot

df['SPOT_CNT'] = df.groupby('CELL_ID')['Grid_Type'].transform(lambda x: sum(x == 'Spot'))

print(df)


    CELL_ID Grid_Type  SPOT_CNT

0         1      Spot         2

1         1    Square         2

2         1      Spot         2

3         1    Square         2

4         1    Square         2

5         2      Spot         1

6         2    Square         1

7         2    Square         1

8         3    Square         3

9         3      Spot         3

10        3      Spot         3

11        3      Spot         3

在函数内部:

- 它返回 bool if value() ==

- 对于每个组,将 bools

相加 最后转换,根据文档,行为如下:lambdax'Spot'sum()True


DataFrame.transform(self, func, axis=0, *args, **kwargs) → 'DataFrame'[source]

     "Call func on self producing a DataFrame with transformed values."  

     "Produced DataFrame will have same axis length as self." <----

...

希望这是有帮助的。


查看完整回答
反对 回复 2022-09-27
  • 2 回答
  • 0 关注
  • 157 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号