为了账号安全,请及时绑定邮箱和手机立即绑定

PySpark 任务大小

PySpark 任务大小

智慧大石 2023-03-16 11:02:23
我目前在 2.4.5 版上有一个由 1 个驱动程序和 2 个工人组成的 Spark 集群。我想进一步优化并行性,以便在加载和处理数据时获得更好的吞吐量,当我这样做时,我经常在控制台上收到这些消息:WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB.这是如何运作的?我对 Spark 技术还很陌生,但了解它的基础知识,我想知道如何优化它,但我不确定它是否涉及配置从属设备以拥有更多执行程序并通过这种方式获得更多并行性,或者我是否需要使用合并或重新分区功能对我的数据帧进行分区。
查看完整描述

1 回答

?
慕标5832272

TA贡献1966条经验 获得超4个赞

这里的一般要点是您需要重新分区以获得更多但更小的分区,以获得更多的并行性和更高的吞吐量。728k 是与您的舞台相关的任意数字。当我刚开始使用 Scala 和 Spark 时,有时会遇到这种情况。

我看不到你的代码,所以我把它留在这里。但是在这里谷歌搜索 SO 表明也缺乏并行性。老实说,众所周知。


查看完整回答
反对 回复 2023-03-16
  • 1 回答
  • 0 关注
  • 129 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号