为了账号安全,请及时绑定邮箱和手机立即绑定

通过 group_id 仅使用特定估计窗口中的观察值进行循环回归并将预测添加回 pandas 数据框

通过 group_id 仅使用特定估计窗口中的观察值进行循环回归并将预测添加回 pandas 数据框

慕森卡 2022-12-20 14:43:09
我正在尝试学习如何在 python 3.7 中执行一些我通常在 Stata 中轻松执行的操作。我正在处理这样的数据框:estimation_window    group_id         y            x   0                       1             3.17         231                       1             4.76         261                       2             4.17         731                       2             8.70         720                       2             11.45        16我想要一个 for 循环来估计 group_id 中每个不同组的线性回归(y on x),只使用虚拟 estimation_window 等于 1 的观察值。然后,我想将三列添加回我的初始数据框:一列包含预测值,一列包含每个回归的 beta(x 系数),一列包含每个回归的截距。应该为所有观察值计算这些值,而不仅仅是虚拟 estimation_window 等于 1 的那些值。生成的数据集应如下所示:estimation_window    group_id         y            x        predicted_val    beta_coeff  alpha_coeff0                       1             3.17         23           3.10            0.32         1.43        1                       1             4.76         26           4.00            0.32         1.431                       2             4.17         73           4.10            0.75         0.951                       2             8.70         72           8.50            0.75         0.950                       2             11.45        16           10.30           0.75         0.95我尝试使用 statsmodels 但无法弄清楚。
查看完整描述

1 回答

?
慕容森

TA贡献1853条经验 获得超18个赞

假设你有你的数据框:


>>> data

   estimation_window  group_id      y     x

0                  0         1   3.17  23.0

1                  1         1   4.76  26.0

2                  1         2   4.17  73.0

3                  1         2   8.70  72.0

4                  0         2  11.45  16.0

然后你可以分组group_id,一个一个做线性回归,把参数存起来。如果您使用statsmodels的是 ,那么您可以执行以下操作:


for groupid, grp in data.groupby('group_id'):

    print(groupid)

    model = sm.OLS(grp['y'], sm.add_constant(grp['x'])).fit()

    data.loc[data['group_id'].eq(groupid), 'alpha'] = model.params['const']

    data.loc[data['group_id'].eq(groupid), 'beta'] = model.params['x']

然后你可以手动重新计算预测值(只是因为线性模型很简单):


data['predicted_val'] = data['x'] * data['beta'] + data['alpha']

结果是:


   estimation_window  group_id      y     x      alpha      beta  predicted_val

0                  0         1   3.17  23.0  -9.020000  0.530000       3.170000

1                  1         1   4.76  26.0  -9.020000  0.530000       4.760000

2                  1         2   4.17  73.0  12.926162 -0.089804       6.370451

3                  1         2   8.70  72.0  12.926162 -0.089804       6.460255

4                  0         2  11.45  16.0  12.926162 -0.089804      11.489294


查看完整回答
反对 回复 2022-12-20
  • 1 回答
  • 0 关注
  • 91 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号