首页手记【Spark Java...

【Spark Java API】broadcast、accumulator

标签：

Spark

broadcast

官方文档描述：

Broadcast a read-only variable to the cluster, returning a 
[[org.apache.spark.broadcast.Broadcast]] object for reading it in distributed functions.
The variable will be sent to each cluster only once.

函数原型：

def broadcast[T](value: T): Broadcast[T]

广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

源码分析：

def broadcast[T: ClassTag](value: T): Broadcast[T] = {  
  assertNotStopped()  
  if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) {    
    // This is a warning instead of an exception in order to avoid breaking user programs that    
    // might have created RDD broadcast variables but not used them:    
    logWarning("Can not directly broadcast RDDs; instead, call collect() and "      
      + "broadcast the result (see SPARK-5063)")  
  }  
  val bc = env.broadcastManager.newBroadcast[T](value, isLocal)  
  val callSite = getCallSite  
  logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)  
  cleaner.foreach(_.registerBroadcastForCleanup(bc))  
  bc
}

实例：

List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);final Broadcast<List<Integer>> broadcast = javaSparkContext.broadcast(data);
JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {    
  List<Integer> iList = broadcast.value();    
  @Override    
  public Integer call(Integer v1) throws Exception {        
    Integer isum = 0;        
    for(Integer i : iList)            
      isum += i;        
    return v1 + isum;    
  }
});
System.out.println(result.collect());

accumulator

官方文档描述：

 Create an [[org.apache.spark.Accumulator]] variable of a given type, which tasks can "add"
 values to using the `add` method. Only the master can access the accumulator's `value`.

函数原型：

def accumulator[T](initialValue: T, accumulatorParam: AccumulatorParam[T]): Accumulator[T]def accumulator[T](initialValue: T, name: String, accumulatorParam: AccumulatorParam[T])   
   : Accumulator[T]

累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和sum。Spark原生地只支持数字类型的累加器，开发者可以添加新类型的支持。如果创建累加器时指定了名字，可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程（对于Python还不支持）。
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是，它们不能读取它的值。只有驱动程序能够读取它的值，通过累加器的value方法。

源码分析：

def accumulator[T](initialValue: T, name: String)(implicit param: AccumulatorParam[T])  
  : Accumulator[T] = {  
  val acc = new Accumulator(initialValue, param, Some(name))  
  cleaner.foreach(_.registerAccumulatorForCleanup(acc))  
  acc
}

实例：

class VectorAccumulatorParam implements AccumulatorParam<Vector> {    
  @Override    
  //合并两个累加器的值。
  //参数r1是一个累加数据集合
  //参数r2是另一个累加数据集合
  public Vector addInPlace(Vector r1, Vector r2) {
    r1.addAll(r2);    return r1;    
  }    
  @Override 
  //初始值   
  public Vector zero(Vector initialValue) {        
     return initialValue;    
  }    
  @Override
  //添加额外的数据到累加值中
  //参数t1是当前累加器的值
  //参数t2是被添加到累加器的值    
  public Vector addAccumulator(Vector t1, Vector t2) {        
      t1.addAll(t2);        
      return t1;    
  }
}
List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);final Accumulator<Integer> accumulator = javaSparkContext.accumulator(0);
Vector initialValue = new Vector();for(int i=6;i<9;i++)    
  initialValue.add(i);//自定义累加器final Accumulator accumulator1 = javaSparkContext.accumulator(initialValue,new VectorAccumulatorParam());
JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {    
  @Override    
  public Integer call(Integer v1) throws Exception {        
    accumulator.add(1);        
    Vector term = new Vector();        
    term.add(v1);        
    accumulator1.add(term);        
    return v1;    
  }
});
System.out.println(result.collect());
System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator.value());
System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator1.value());

作者：小飞_侠_kobe
链接：https://www.jianshu.com/p/082ef79c63c1

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕虎7371278

手记
篇

粉丝

202

获赞与收藏

878

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33027 372

网络编程入门教程

20个小节 13705 256

Pandas 入门教程

25个小节 20347 390

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

【Spark Java API】broadcast、accumulator

broadcast

官方文档描述：

函数原型：

源码分析：

实例：

accumulator

官方文档描述：

函数原型：

源码分析：

实例：

阅读免费教程