为了账号安全,请及时绑定邮箱和手机立即绑定

如何添加新列并根据另一列的系列填充特定值?

如何添加新列并根据另一列的系列填充特定值?

手掌心 2022-10-18 16:51:19
我是 Pandas 的新手,但由于将具有恒定值的列添加到 pandas 数据框,我能够一次添加不同的列c = {'new1': 'w', 'new2': 'y', 'new3': 'z'}df.assign(**c)但是,我试图弄清楚当我想向数据框添加新列(当前为 120 万行 * 23 列)时要采取的路径是什么。让我们稍微简化一下 df 并尝试使其更清晰:Order   Orderline   Product  1       0           Laptop  1       1           Bag  1       2           Mouse  2       0           Keyboard  3       0           Laptop  3       1           Mouse  我想添加一个新列,这取决于订单是否至少有 1 个产品 == Bag,那么它应该是 1(对于该特定订单的所有行),否则为 0。结果将变为:Order   Orderline   Product   HasBag  1       0           Laptop    1  1       1           Bag       1  1       2           Mouse     1  2       0           Keyboard  0  3       0           Laptop    0  3       1           Mouse     0  我可以做的是找到所有唯一的订单号,然后过滤掉子框架,检查产品列的 Bag,如果找到,则在新列中添加 1,否则为 0,然后用结果替换原始子框架。可能有更好的方式来实现这一点,而且性能也更高。我尝试这样做的主要原因是稍后将事情弄平。每个订单都应成为具有某些产品值的 1 行。我不再需要 Bag 的信息,但如果原始订单曾经有 Bag (1) 或没有 Bag (0),我想保留在我的数据框中。最终,当数据被清除后,它可以用作 scikit-learn 的基础(或者这就是我所希望的)。
查看完整描述

1 回答

?
泛舟湖上清波郎朗

TA贡献1818条经验 获得超3个赞

如果我理解正确,你想要GroupBy.transform.any


首先,我们通过检查其中的哪些行带有 来创建一个Product布尔Bag数组Series.eq。然后我们GroupBy在这个布尔数组上检查any值是否为True. 我们transform用来保持初始数组的形状,以便我们可以将值分配回去。


df['ind'] = df['Product'].eq('Bag').groupby(df['Order']).transform('any').astype(int)


   Order  Orderline   Product  ind

0      1          0    Laptop    1

1      1          1       Bag    1

2      1          2     Mouse    1

3      2          0  Keyboard    0

4      3          0    Laptop    0

5      3          1     Mouse    0


查看完整回答
反对 回复 2022-10-18
  • 1 回答
  • 0 关注
  • 69 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信