首页手记大数据开发-Spark-闭包的理解

大数据开发-Spark-闭包的理解

标签：

Spark

1.从Scala中理解闭包

闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。

如下面这段匿名的函数：

val multiplier = (i:Int) =&gt; i * 10

函数体内有一个变量 i，它作为函数的一个参数。如下面的另一段代码：

val multiplier = (i:Int) =&gt; i * factor

在 multiplier中有两个变量：i 和 factor。其中的一个 i 是函数的形式参数，在 multiplier函数被调用时，i 被赋予一个新的值。然而，factor不是形式参数，而是自由变量，考虑下面代码：

var factor = 3  val multiplier = (i:Int) =&gt; i * factor

这里我们引入一个自由变量 factor，这个变量定义在函数外面。

这样定义的函数变量 multiplier成为一个"闭包"，因为它引用到函数外面定义的变量，定义这个函数的过程是将这个自由变量捕获而构成一个封闭的函数

完整的例子：

object Test {  
   def main(args: Array[String]) {  
      println( "muliplier(1) value = " +  multiplier(1) )  
      println( "muliplier(2) value = " +  multiplier(2) )  
   }  
   var factor = 3  
   val multiplier = (i:Int) =&gt; i * factor  
}

2.Spark中的闭包理解

先来看下面一段代码：

val data=Array(1, 2, 3, 4, 5)
var counter = 0
var rdd = sc.parallelize(data)

// ？？？？ 这样做会怎么样
rdd.foreach(x =&gt; counter += x)

println("Counter value: " + counter)

首先肯定的是上面输出的结果是0，park将RDD操作的处理分解为tasks，每个task由Executor执行。在执行之前，Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法（在这种情况下是foreach()）。闭包会被序列化并发送给每个Executor，但是发送给Executor的是副本，所以在Driver上输出的依然是counter本身，如果想对全局的进行更新，用累加器，在spark-streaming里面使用updateStateByKey来更新公共的状态。

另外在Spark中的闭包还有别的作用，

1.清除Driver发送到Executor上的无用的全局变量等，只复制有用的变量信息给Executor

2.保证发送到Executor上的是序列化以后的数据

比如在使用DataSet时候 case class的定义必须在类下，而不能是方法内，即使语法上没问题，如果使用过json4s来序列化，implicit val formats = DefaultFormats 的引入最好放在类下，否则要单独将这个format序列化，即使你没有使用到它别的东西。

3.总结

闭包在Spark的整个生命周期中处处可见，就比如从Driver上拷贝的所有数据都需要序列化 + 闭包的方式到Executor上的。

吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。
更多请关注

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

Hoult_吴邪

JAVA开发工程师

手记
篇

粉丝

4

获赞与收藏

5

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32873 371

网络编程入门教程

20个小节 13637 256

Pandas 入门教程

25个小节 20279 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

大数据开发-Spark-闭包的理解

1.从Scala中理解闭包

2.Spark中的闭包理解

3.总结

阅读免费教程