为了账号安全,请及时绑定邮箱和手机立即绑定

在执行差异函数时如何仅在数据不为零或不考虑零后的第一个和最后一个值时执行

在执行差异函数时如何仅在数据不为零或不考虑零后的第一个和最后一个值时执行

呼如林 2023-05-23 16:34:54
我有一个数据框 X,它总是以零开始并以零结束,所以我在 sun 列上执行 .diff() 函数以获得当前间隔与其先前间隔的差异,当我这样做时我在数据框 Y 中以黄色标记的一天开始和一天结束时得到这个大值,我想看看如何计算与 3:30 时间戳的差异,以便我们得到一个数据框z 我们有零而不是 100 和 -142
查看完整描述

1 回答

?
临摹微笑

TA贡献1982条经验 获得超2个赞

如果有效数据范围内没有零:

df.loc[~df['sun'].eq(0), 'sun'].diff().fillna(0).reindex(df.index, fill_value=0)

输出:


2020-07-20 03:05:00     0.0

2020-07-20 03:10:00     0.0

2020-07-20 03:15:00     0.0

2020-07-20 03:20:00     0.0

2020-07-20 03:25:00     0.0

2020-07-20 03:30:00    21.0

2020-07-20 03:35:00     1.0

2020-07-20 03:40:00    12.0

2020-07-20 03:45:00   -12.0

2020-07-20 03:50:00    20.0

2020-07-20 03:55:00     0.0

2020-07-20 04:00:00     0.0

2020-07-20 04:05:00     0.0

Freq: 5T, Name: sun, dtype: float64

否则让我们找到有效数据范围的开始和结束:

s = df.where(df['sun'].ne(0))

idx_start = s.first_valid_index()

idx_end = s.last_valid_index()

df.loc[idx_start:idx_end].diff().fillna(0).reindex(df.index, fill_value=0)

输出:


                      sun

2020-07-20 03:05:00   0.0

2020-07-20 03:10:00   0.0

2020-07-20 03:15:00   0.0

2020-07-20 03:20:00   0.0

2020-07-20 03:25:00   0.0

2020-07-20 03:30:00  21.0

2020-07-20 03:35:00   1.0

2020-07-20 03:40:00  12.0

2020-07-20 03:45:00 -12.0

2020-07-20 03:50:00  20.0

2020-07-20 03:55:00   0.0

2020-07-20 04:00:00   0.0

2020-07-20 04:05:00   0.0


查看完整回答
反对 回复 2023-05-23
  • 1 回答
  • 0 关注
  • 87 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信