为了账号安全,请及时绑定邮箱和手机立即绑定

数据框:单元格级别:将逗号分隔的字符串转换为列表

数据框:单元格级别:将逗号分隔的字符串转换为列表

慕运维8079593 2023-08-22 17:00:36
我有一个 CSV 文件,其中包含有关汽车行程的信息。我想整理这些数据,以便为每个旅程(每一行)提供一个列表。该列表应包含作为列表中第一项的旅程代码,然后将所有后续 MGRS 单元作为单独的项目。最后,我希望将所有这些旅程列表分组到父列表中。如果我手动执行此操作,它将如下所示:journeyCodeA = ['journeyCodeA', 'mgrs1', 'mgrs2', 'mgrs3']journeyCodeB = ['journeyCodeB', 'mgrs2', 'mgrs4', 'mgrs7']combinedList = [journeyCodeA, journeyCodeB]这是迄今为止我为每行创建一个列表并组合所需列的内容。comparison_journey_mgrs = pd.read_csv(r"journey-mgrs.csv", delimiter = ',')comparison_journey_mgrs['mgrs_grids'] = comparison_journey_mgrs['mgrs_grids'].str.replace(" ","")comparison_journey_list = []for index, rows in comparison_route_mgrs.iterrows():        holding_list = [rows.journey_code, rows.mgrs_grids]        comparison_journey_list.append(holding_list)这样做的问题是它将 mgrs_grids 列视为单个字符串。我的清单如下所示:[['7211863-140','18TWL927129,18TWL888113,18TWL888113,...,18TWL903128']]但我希望它看起来像这样:[['7211863-140','18TWL927129', '18TWL888113', '18TWL888113',..., '18TWL903128']]我正在努力寻找一种方法来迭代数据帧的每一行,引用 mgrs_grids 列,然后将逗号分隔的字符串就地转换为列表。
查看完整描述

2 回答

?
慕姐4208626

TA贡献1852条经验 获得超7个赞

用于pandas.Series.str.split将字符串拆分为list.

# use str split on the column

df.mgrs_grids = df.mgrs_grids.str.split(',')


# display(df)

   driver_code journey_code                                                                                                                                       mgrs_grids

0      7211863  7211863-140                            [18TWL927129, 18TWL888113, 18TWL888113, 18TWL887113, 18TWL888113, 18TWL887113, 18TWL887113, 18TWL887113, 18TWL903128]

1      7211863  7211863-105  [18TWL927129, 18TWL939112, 18TWL939112, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL960111, 18TWL960112]

2      7211863   7211863-50                            [18TWL927129, 18TWL889085, 18TWL889085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL890085]

3      7211863  7211863-109               [18TWL927129, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952105, 18TWL951103]


print(type(df.loc[0, 'mgrs_grids']))

[out]:

list

每个值单独一行

  • 创建一列列表后。

  • 用于pandas.DataFrame.explode为列表中的每个值创建单独的行。

# get a separate row for each value

df = df.explode('mgrs_grids').reset_index(drop=True)


# display(df.hea())

   driver_code journey_code   mgrs_grids

0      7211863  7211863-140  18TWL927129

1      7211863  7211863-140  18TWL888113

2      7211863  7211863-140  18TWL888113

3      7211863  7211863-140  18TWL887113

4      7211863  7211863-140  18TWL888113

更新

  • 这是另一个选项,它将 组合'journey_code'到 的前面'mgrs_grids',然后将字符串拆分为列表。

    • 该列表被分配回'mgrs_grids',但也可以分配给新列。

# add the journey code to mgrs_grids and then split

df.mgrs_grids = (df.journey_code + ',' + df.mgrs_grids).str.split(',')


# display(df.head())

   driver_code journey_code                                                                                                                                                    mgrs_grids

0      7211863  7211863-140                            [7211863-140, 18TWL927129, 18TWL888113, 18TWL888113, 18TWL887113, 18TWL888113, 18TWL887113, 18TWL887113, 18TWL887113, 18TWL903128]

1      7211863  7211863-105  [7211863-105, 18TWL927129, 18TWL939112, 18TWL939112, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL960111, 18TWL960112]

2      7211863   7211863-50                             [7211863-50, 18TWL927129, 18TWL889085, 18TWL889085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL890085]

3      7211863  7211863-109               [7211863-109, 18TWL927129, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952105, 18TWL951103]


# output to nested list

df.mgrs_grids.tolist()


[out]:

[['7211863-140', '18TWL927129', '18TWL888113', '18TWL888113', '18TWL887113', '18TWL888113', '18TWL887113', '18TWL887113', '18TWL887113', '18TWL903128'],

 ['7211863-105', '18TWL927129', '18TWL939112', '18TWL939112', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL960111', '18TWL960112'],

 ['7211863-50', '18TWL927129', '18TWL889085', '18TWL889085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL890085'],

 ['7211863-109', '18TWL927129', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952105', '18TWL951103']]



查看完整回答
反对 回复 2023-08-22
?
RISEBY

TA贡献1856条经验 获得超5个赞

您还可以将数据框拆分并分解为表格格式。


df1 = df.join(df['mgrs_grids'].str.split(',',expand=True).stack().reset_index(1),how='outer')\

        .drop(['level_1','mgrs_grids'],1).rename(columns={0 : 'mgrs_grids'})



print(df1)


   driver_code journey_code   mgrs_grids

0      7211863  7211863-140  18TWL927129

0      7211863  7211863-140  18TWL888113

0      7211863  7211863-140  18TWL888113

0      7211863  7211863-140  18TWL887113

0      7211863  7211863-140  18TWL888113

0      7211863  7211863-140  18TWL887113

0      7211863  7211863-140  18TWL887113

0      7211863  7211863-140  18TWL887113

0      7211863  7211863-140  18TWL903128

1      7211863  7211863-105  18TWL927129

1      7211863  7211863-105  18TWL939112

1      7211863  7211863-105  18TWL939112

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL939113

1      7211863  7211863-105  18TWL960111

1      7211863  7211863-105  18TWL960112

2      7211863   7211863-50  18TWL927129

2      7211863   7211863-50  18TWL889085

2      7211863   7211863-50  18TWL889085

2      7211863   7211863-50  18TWL888085

2      7211863   7211863-50  18TWL888085

2      7211863   7211863-50  18TWL888085

2      7211863   7211863-50  18TWL888085

2      7211863   7211863-50  18TWL888085

2      7211863   7211863-50  18TWL890085

3      7211863  7211863-109  18TWL927129

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952106

3      7211863  7211863-109  18TWL952105

3      7211863  7211863-109  18TWL951103


查看完整回答
反对 回复 2023-08-22
  • 2 回答
  • 0 关注
  • 139 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信