首页猿问如何过滤一列包含相似模式但另一列包...

如何过滤一列包含相似模式但另一列包含不同值的行

Python

守候你守候我 2023-03-08 16:12:07

我在熊猫中有这个数据框：df = pd.DataFrame( {"bond": ["XSD070623A17","XSD090222A10","XSD100221A18", "XSD070623T15", "XSD070623T23","XSD090222T32","XSD100221T11"], "issue_date":["01.01.2020", "03.05.2020", "05.02.2020", "10.11.2019", "01.01.2020", "03.05.2020", "12.10.2020"] } )df bond issue_date0 XSD070623A17 01.01.20201 XSD090222A10 03.05.20202 XSD100221A18 05.02.20203 XSD070623T15 10.11.20194 XSD070623T23 01.01.20205 XSD090222T32 03.05.20206 XSD100221T11 12.10.2020如您所见，“债券”列中某些值的前 9 个字符相同。我将得到这个数据框的一个子集，对于第 10 个字符等于“A”的每个值，我想得到前 9 个字符相同且第 10 个字符等于“T”的值。之后，如果“A”和“T”债券的发行日期不同，那么我想过滤这两种债券。例如，第 0 个索引的债券值与第 3 个和第 4 个索引的值具有相同的模式，但第 0 个和第 4 个索引的发行日期相同，所以我想过滤第 0 行和第 3 行。另一方面，第一个指数的债券价值与第五个指数具有相同的模式，但它们的发行日期相同，所以我不想过滤它们。毕竟，我想获得以下数据框： bond issue_date0 XSD070623A17 01.01.20202 XSD100221A18 05.02.20203 XSD070623T15 10.11.20196 XSD100221T11 12.10.2020任何帮助将不胜感激。

查看完整描述

2 回答

鸿蒙传说

TA贡献1865条经验获得超7个赞

这是一个不需要任何硬编码的答案。

第一步：按应该相等的前 9 个字符以及 issue_date 分组。实际上，您不需要考虑 A 或 T 是第 10 个字符的情况。

做出了以下假设：

索引无关紧要
当债券的前 9 个字符相同时：仅保留第一次出现

df_grouped = (df.groupby([df.bond.str[:9], df.issue_date])

.agg({'bond': ['first', 'nunique']}))

bond

first nunique

bond issue_date

XSD070623 01.01.2020 XSD070623A17 2

XSD070623 10.11.2019 XSD070623T15 1

XSD090222 03.05.2020 XSD090222A10 2

XSD100221 05.02.2020 XSD100221A18 1

XSD100221 12.10.2020 XSD100221T11 1

第二步：堆叠分组的数据框

df_grouped = df_grouped.unstack()

第三步：过滤掉只有一个发行日期的行，用于共享前 9 个字符的债券。然后，堆叠结果，并重置索引

df_grouped[df_grouped['nunique'].count(axis=1) > 1].stack().reset_index()

bond issue_date first nunique

0 XSD070623 01.01.2020 XSD070623A17 2.0

1 XSD070623 10.11.2019 XSD070623T15 1.0

2 XSD100221 05.02.2020 XSD100221A18 1.0

3 XSD100221 12.10.2020 XSD100221T11 1.0

最后一步：保留有用的列

df_grouped[['first', 'issue_date']].rename(columns={'first': 'bond'})

first issue_date

0 XSD070623A17 01.01.2020

1 XSD070623T15 10.11.2019

2 XSD100221A18 05.02.2020

3 XSD100221T11 12.10.2020

请在更大的数据集上尝试这个，如果需要任何改进，请告诉我:)

反对回复 2023-03-08

慕容3067478

TA贡献1773条经验获得超3个赞

我们可以在此处使用正则表达式，df['bond'].str.contains()因为您只需要带有XSD070623or的行XSD100221，并且还想删除具有相同值的行issue-date。这是我所做的：

#your df:

>>> df

bond issue_date

0 XSD070623A17 01.01.2020

1 XSD090222A10 03.05.2020

2 XSD100221A18 05.02.2020

3 XSD070623T15 10.11.2019

4 XSD070623T23 01.01.2020

5 XSD090222T32 03.05.2020

6 XSD100221T11 12.10.2020

现在应用正则表达式来满足列的第一个条件bond并删除issue-date列的重复项并考虑第一个，我做了：

>>> df[df['bond'].str.contains('XSD070623|XSD100221')].drop_duplicates(subset='issue_date', keep="first")

bond issue_date

0 XSD070623A17 01.01.2020

2 XSD100221A18 05.02.2020

3 XSD070623T15 10.11.2019

6 XSD100221T11 12.10.2020

以上'XSD070623|XSD100221'将被视为正则表达式，我们将删除issue-date列中的重复项并保留第一个（在我们的例子中）。

反对回复 2023-03-08

2 回答
0 关注
156 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

如何过滤一列包含相似模式但另一列包含不同值的行

如何过滤一列包含相似模式但另一列包含不同值的行

2 回答

添加回答