首页手记 spark broadcast join优化

spark broadcast join优化

标签：

Spark

在大量数据中对一些字段进行关联。

举例

ipTable：需要进行关联的几千条ip数据(70k)
hist：历史数据（百亿级别）

直接join将会对所有数据进行shuffle，需要大量的io操作，相同的key会在同一个partition中进行处理，任务的并发度也收到了限制。

shuffle join

使用broadcast将会把小表分发到每台执行节点上，因此，关联操作都在本地完成，基本就取消了shuffle的过程，运行效率大幅度提高。

broadcast join

样本数据(2000w)性能测试对比

小表没有进行broadcast

shuffle join

进行了broadcast,可以看到连shuffle过程都省略了

broadcast join

实现代码(spark1.5)

//读取ip表val df = ...//如果数据小于设定的广播大小则将该表广播,默认10Mdf.cache.count//注册表df.registerTempTable("ipTable")//关联sqlContext.sql("select * from (select * from ipTable)a join (select * from hist)b on a.ip = b.ip")

......

设置表广播的阈值，如果有需求且内存足够，可以将该值提高，默认10M

spark.sql.autoBroadcastJoinThreshold

作者：breeze_lsw
链接：https://www.jianshu.com/p/2c7689294a73

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

青春有我

JAVA开发工程师

手记
篇

粉丝

205

获赞与收藏

1011

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32944 372

网络编程入门教程

20个小节 13666 256

Pandas 入门教程

25个小节 20317 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

spark broadcast join优化

举例

样本数据(2000w)性能测试对比

实现代码(spark1.5)

阅读免费教程