为了账号安全,请及时绑定邮箱和手机立即绑定

Spark编程讲解

标签:
Spark
  • Spark严重依赖传递函数类型的参数,即 在spark中,transformation 和 action接收的参数绝大部分都是函数类型
    两种建议的使用用法:
    1. 一种是匿名函数,适用于小片段的代码。
    2. 传递object对象中的静态方法
    不建议的做法:
    使用普通类的方法,必须将此类的实例一起传进去,此普通类必须继承java.io.Serializable.即普通类必须有序列化的能力。

  • RDD是弹性分布式数据集,实际计算是分布在各个节点上,但是RDD的计算过程都是在Driver程序中定义的。当代码从Driver中分发至各计算节点有一个过程,可以认为为4步:

  1. 在Driver节点序列化代码

  2. 传送至各计算节点

  3. 在计算节点反序列化

  4. 执行execute

在Spark中,每个Job的执行,都会经历序列化、网络传输、反序列化和运行的过程。Spark会将Job运行所以来的变量、方法(称为闭包)全部打包在一起序列化,相当于他们的一份副本。

理解以键值对为参数的操作
<key, value> 运算PairRDDFunction类,自动处理RDD元组。

Transformation操作
Transformation操作都是接收一个RDD作为输入,返回一个新的RDD。
map(func)  对源RDD中的每个元素调用func,生成新的元素,这些新的元素构成新的RDD并返回。
flatMap(func)  每个输入的RDD成员可以产生0个或者多个输出成员,所以func得返回值类型为Seq类型,但是RDD会自动将其转为单成员。
filter(func)对RDD进行过滤
mapPartitions(func)  map中func的作用的是RDD中的每个元素,而mapPartitions中的func作用的对象是RDD中的一整个分区
func的类型是 Iterator<T> => Iterator<U>
mapPartitionsWithIndex9func)  与mapPartitions类似,但输入会多提供一个整数表示分区的编号,所以func得类型是(Int, Iterator<T>) => Iterator<U> 多了一个Int
sample(withReplacement, fraction, seed) 对RDD进行抽样,withReplacement为true时表示抽样之后还放回。可以多次被抽样,false表示不放回, fraction为浮点数,表示抽样比例; seed为随机数种子,比如当前时间戳)
union(otherDataset)  合并两个RDD,不去重, 要求两个RDD中的元素类型一致
distinct([numberTasks])  对原RDD进行去重操作,返回的RDD中没有重复成员
groupByKey([numberTasks])  对<key, value>结构的RDD进行雷士RMDB的group by聚合操作,具有相同key的RDD成员的value会被聚合在一起,返回的RDD的结构是(key, Iterable<value>)
reduceByKey(func, [numberTasks])  对<key, value>结构的RDD进行聚合,对具有相同key的value调用func类进行reduce操作。func的类型必须是(V,V) = V
sortByKey([ascending], [numberTasks]) 对<key, value> 结构的RDD进行升序或降序排列
join(otherDataset, [numberTasks]) 对<k, v> 和 <k, w> 进行 join操作,返回 (k, <V, W>)
外连接函数为leftOuterJoin , rightOuterJoin和 fullOuterJoin

Action 操作
Transformation操作结束之后,就该Action操作上场了,输出不再是RDD,二十回送至Driver程序

reduce(func)对RDD成员使用func进行reduce操作,func接受两个参数,合并之后只返回一个值,reduce操作的返回结果只有一个值, 需要注意的是,func会并发执行。
collect()  将RDD读取至Driver程序,类型是Array, 一般要求RDD不能太大
count()   返回RDD的成员变量
first()    返回RDD的第一个成员,等价于take()
take(n)   返回RDD前n个成员
saveAsTextFile(path)  将RDD转换为文本内容并保存至路径path下,可能有多个文件
saveAsSequenceFile(path) 与saveTextFIle一样,但是以sequenceFile格式保存。
countByKey()   仅适用于(K, V)类型,对key计数,返回(K, Int)
foreach(func)  对RDD中的每个成员执行func,没有返回值。

应用程序提交
程序打包(package)之后,就可以提交至集群上运行,提交任务的基本形式如下:
./bin/spark-submit  
--class <main-class>
--master <master-url>
--deploy-mode <deploy-mode>
--conf <key>=<value>  
<application-jar>
[application-argument]

--class 参数指定包中的 object对象。 --master参数制定Spark集群地址,它可以是下面的任何一种:
local[N]  表示本地模式
spark://host:port   表示Standlone模式
yarn
mesos://host:port
--deploy-mode 选项用于指定运行模式,可选的值为client或cluster。分别表示Driver程序是运行在本地还是运行在集群上。
spark-submit提交程序时,会读取配置文件conf/spark-defaults.conf作为默认配置
--jars 选项可以用于制定额外的依赖包,集群上的所有节点都会访问这些文件。



作者:海盗公爵
链接:https://www.jianshu.com/p/ee34982060c6


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消