使用 Azure 机器学习服务训练大型模型时如何克服 TrainingException？

Python

MMTTMM 2021-12-29 18:18:55

我正在训练一个大型模型，试图在 Azure 笔记本中使用Azure 机器学习服务。因此，我创建了一个Estimator在本地进行培训：from azureml.train.estimator import Estimatorestimator = Estimator(source_directory='./source_dir', compute_target='local', entry_script='train.py')（我train.py应该从一个大的词向量文件开始加载和训练）。运行时run = experiment.submit(config=estimator)我得到训练异常：====================================================================尝试拍摄 /data/home/username/notebooks/source_dir 的快照时，您的总快照大小超过 300.0 MB 的限制。请参阅 http://aka.ms/aml-largefiles了解如何处理大文件。====================================================================错误中提供的链接可能已损坏。我的内容./source_dir确实超过了 300 MB。我该如何解决这个问题？

查看完整描述

2 回答

子衿沉夜

TA贡献1828条经验获得超3个赞

您可以将训练文件放在外面，source_dir这样它们就不会作为提交实验的一部分上传，然后将它们单独上传到数据存储（基本上使用与您的工作区关联的 Azure 存储）。然后您需要做的就是从train.py.

有关如何将数据上传到数据存储然后从训练文件访问它的示例，请参阅训练模型教程。

反对回复 2021-12-29

喵喔喔

TA贡献1735条经验获得超5个赞

在我阅读了 GitHub 问题Encounter |total Snapshot size 300MB while start logging和官方文档Manage and request quotas for Azure resources for Azure ML service 后，我认为这是一个未知问题，需要一些时间等待 Azure 修复。

同时，我建议您可以尝试将当前工作迁移到其他服务Azure Databricks，上传您的数据集和代码，然后在托管在 HDInsight Spark Cluster 上的 Azure Databricks notebook 中运行它，而无需担心内存或存储限制。你可以在 Azure Databricks 上参考Azure ML 的这些示例。

反对回复 2021-12-29

热搜

最近搜索清空

使用 Azure 机器学习服务训练大型模型时如何克服 TrainingException？

使用 Azure 机器学习服务训练大型模型时如何克服 TrainingException？

2 回答

添加回答