为了账号安全,请及时绑定邮箱和手机立即绑定

管道是否能够缓存中间结果?

管道是否能够缓存中间结果?

拉莫斯之舞 2022-06-28 17:21:55
我使用 pandas 进行机器学习的特征提取。我希望实现以下目标:考虑我按顺序完成了五个数据处理步骤,并且我执行了一次。结果将自动保存。下次如果我改第四步,库会自动从第三步开始。Pandas 或sklearn.pipeline.Pipeline其他数据处理库自然会支持此缓存功能,而无需我们显式保存它们吗?
查看完整描述

2 回答

?
慕尼黑5688855

TA贡献1848条经验 获得超2个赞

MLFlow Tracking有一些在 Dagster 中似乎缺乏的不错的功能(当前 git 提交的记录、ML 指标等)。它们还与Databricks很好地集成,可以轻松进行集群部署。但是,他们确实缺乏构建 Dagster 擅长的复杂管道。

有没有办法获得“世界上最好的”?也就是说,将 Dagster 与 MLFlow 集成并因此在 Databricks 上运行?

或者有什么好的选择吗?


查看完整回答
反对 回复 2022-06-28
?
jeck猫

TA贡献1909条经验 获得超7个赞

VevestaX ( https://github.com/Vevesta/VevestaX ) 可用于跟踪机器学习实验中使用的特征和参数。它可以安装


pip install vevestaX

具有简单的命令来跟踪使用的功能。例子:


V.dataSourcing = df


在 jupyter notebook 中,此命令需要运行一次,它将捕获功能。或者要捕获特征工程,您只需要运行以下命令


V.featureEngineering = df

或者


V.fe = df

最后,可以通过在代码块 V.start() 和 V.end() 之间写入变量来捕获变量


V.start()

epochs = 10

V.end()


查看完整回答
反对 回复 2022-06-28
  • 2 回答
  • 0 关注
  • 204 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号