首页手记 Spark的这些事（三）——s...

Spark的这些事（三）——spark常用的Transformations 和Actions

标签：

Spark

Actions

常用的Transformations就介绍到这里，下面介绍下常用的Action:
reduce,countByValue,takeOrdered,takeSample,aggregate

首先看一下：reduce

    val rdd5 = sc.parallelize(List(1,2,3,4))    print("reduce action:"+rdd5.reduce((x,y)=>x+y)+"\n")

16/08/18 11:51:16 INFO DAGScheduler: Job 15 finished: reduce at Function.scala:55, took 0.012698 s
reduce action:1016/08/18 11:51:16 INFO SparkContext: Starting job: aggregate at Function.scala:57

countByValue

print(rdd1.countByValue() + "\n")

16/08/18 11:51:16 INFO DAGScheduler: Job 11 finished: countByValue at Function.scala:48, took 0.031726 sMap(monkey -> 1, coffee -> 2, panda -> 1, tea -> 1)16/08/18 11:51:16 INFO SparkContext: Starting job: takeOrdered at Function.scala:50

takeOrdered

rdd1.takeOrdered(10).take(100).foreach(println)

16/08/18 11:51:16 INFO DAGScheduler: Job 12 finished: takeOrdered at Function.scala:50, took 0.026160 s
coffee
coffee
monkey
panda
tea16/08/18 11:51:16 INFO SparkContext: Starting job: takeSample at Function.scala:52

aggregate
这个要重点介绍一下：

Spark文档中aggregate函数定义如下
def aggregate[U](zeroValue: U)(seqOp: (U, T) U, combOp: (U, U) U)(implicit arg0: ClassTag[U]): U
Aggregate the elements of each partition, and then the results for all the partitions, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions are allowed to modify and return their first argument instead of creating a new U to avoid memory allocation.
seqOp操作会聚合各分区中的元素，然后combOp操作把所有分区的聚合结果再次聚合，两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T)，第一个T跟zeroValue做操作，结果再作为与第二个T做操作的zeroValue，直到遍历完整个分区。combOp操作是把各分区聚合的结果，再聚合。aggregate函数返回一个跟RDD不同类型的值。因此，需要一个操作seqOp来把分区中的元素T合并成一个U，另外一个操作combOp把所有U聚合。

val rdd5 = sc.parallelize(List(1,2,3,4))
val rdd6 = rdd5.aggregate((0, 0))  ((x, y) =>(x._1 + y, x._2+1),  (x, y) =>(x._1 + y._1, x._2 + y._2))
    print ("aggregate action : " + rdd6 + "\n"  )

我们看一下结果：

16/08/18 11:51:16 INFO DAGScheduler: Job 16 finished: aggregate at Function.scala:57, took 0.011686 saggregate action : (10,4)16/08/18 11:51:16 INFO SparkContext: Invoking stop() from shutdown hook

我们可以根据以上执行的例子来理解aggregate 用法：

第一步：将rdd5中的元素与初始值遍历进行聚合操作
第二步：将初始值加1进行遍历聚合
第三步：将结果进行聚合
根据本次的RDD 背部实现如下：
第一步：其实是0+1
               1+2
               3+3
               6+4
然后执行：0+1
           1+1
           2+1
           3+1
此时返回(10,4)
本次执行是一个节点，如果在集群中的话，多个节点，会先把数据打到不同的分区上，比如(1,2) (3,4)
得到的结果就会是(3,2) (7,2)
然后进行第二步combine就得到 (10,4)

这样你应该能理解aggregate这个函数了吧

以上就是对常用的Transformations 和Actions介绍，对于初学者来说，动手代码实践各个函数，才是明白其功能最好的方法。

PS ：源码

作者：WindyQin
链接：https://www.jianshu.com/p/4ed35c52b31f

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

三国纷争

JAVA开发工程师

手记
篇

粉丝

50

获赞与收藏

175

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 28997 327

网络编程入门教程

20个小节 12042 231

Pandas 入门教程

25个小节 17512 315

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Spark的这些事（三）——spark常用的Transformations 和Actions

Transformations

Actions

阅读免费教程