我正在微调一个 BERT 模型,每个 epoch 大约需要 1 小时 20 分钟。我很好奇在迁移到 g3s.xlarge 后我可以期望这个模型运行多快。寻找节省时间的百分比/运行时间的非常粗略的估计。 查看完整描述