管道是否能够缓存中间结果？

我使用 pandas 进行机器学习的特征提取。我希望实现以下目标：考虑我按顺序完成了五个数据处理步骤，并且我执行了一次。结果将自动保存。下次如果我改第四步，库会自动从第三步开始。Pandas 或sklearn.pipeline.Pipeline其他数据处理库自然会支持此缓存功能，而无需我们显式保存它们吗？

查看完整描述

2 回答

慕尼黑5688855

TA贡献1848条经验获得超2个赞

MLFlow Tracking有一些在 Dagster 中似乎缺乏的不错的功能（当前 git 提交的记录、ML 指标等）。它们还与Databricks很好地集成，可以轻松进行集群部署。但是，他们确实缺乏构建 Dagster 擅长的复杂管道。

有没有办法获得“世界上最好的”？也就是说，将 Dagster 与 MLFlow 集成并因此在 Databricks 上运行？

或者有什么好的选择吗？

反对回复 2022-06-28

jeck猫

TA贡献1909条经验获得超7个赞

VevestaX ( https://github.com/Vevesta/VevestaX ) 可用于跟踪机器学习实验中使用的特征和参数。它可以安装

pip install vevestaX

具有简单的命令来跟踪使用的功能。例子：

V.dataSourcing = df

在 jupyter notebook 中，此命令需要运行一次，它将捕获功能。或者要捕获特征工程，您只需要运行以下命令

V.featureEngineering = df

或者

V.fe = df

最后，可以通过在代码块 V.start() 和 V.end() 之间写入变量来捕获变量

V.start()

epochs = 10

V.end()

反对回复 2022-06-28

热搜

最近搜索清空

管道是否能够缓存中间结果？

管道是否能够缓存中间结果？

2 回答

添加回答