为了账号安全,请及时绑定邮箱和手机立即绑定

DataFrame/DataSet组的行为/优化

DataFrame/DataSet组的行为/优化

POPMUISE 2019-07-25 18:14:27
DataFrame/DataSet组的行为/优化假设我们有DataFramedf由下列栏组成:姓名,姓氏,大小,宽度,长度,体重现在我们想要执行几个操作,例如,我们希望创建包含大小和宽度数据的几个DataFrame。val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足够聪明,在洗牌阶段之前丢弃多余的列,还是它们被随身携带?Wil Run:val dfBasic = df.select("surname", "size", "width")在分组之前对性能有什么影响?
查看完整描述

2 回答

?
慕神8447489

TA贡献1780条经验 获得超1个赞

我试图搜索和读取任何解释跨节点混合操作的源,这些操作的性能和分布是DataFrame(特别是)和RDD在节点上的操作,但是可以找到,给出的只是示例和输出。你能指导教授这样的概念的课程吗(比如RDD中的groupbyKey是昂贵的,而df中的groupby不是)

查看完整回答
反对 回复 2019-07-26
  • 2 回答
  • 0 关注
  • 546 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信