首页手记 RDD的转化与行为

RDD的转化与行为

标签：

Spark

一、基本的RDD操作

1.RDD的转化操作

表1-1：对数据为{1，2，3，3}的RDD进行基本的转化操作

函数	目的	实例	结果
map()	将函数应用于RD'D中的每个元素	rdd.map(x=>x+1)	{2,3,4,4}
flatMap()	将函数应用于RD'D中的每个元素,将返回的迭代器的所有内容构成新的RDD	rdd.flatMap(x=>x.to(3))	{1,2,3,2,3,3,3}
filter()	过滤	rdd.filter(x=>x!=1)	{2,3,3}
distinct()	去重	rdd.distinct()	{1,2,3}
sample(withReplacement,fraction,[seed])	采样，以及是否替换	rdd.sample(false,0.5)	非确定

表1-2：对数据{1，2，3}，{3，4，5}的RDD进行转化操作

函数	目的	示例	结果
union()	并集	rdd.union(other)	{1,2,3,3,4,5}
intersection()	交集	rdd.intersection(other)	{3}
subtract()	移除一个 RDD 中的内容(差集)	rdd.substract(other)	{1,2}
cartesian()	笛卡儿积	rdd.cartesian(other)	{(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,3),(3,4),(3,5)}

2.RDD行为操作

表1-3：对{1,2,3,3}的RDD进行操作

函数	目的	示例	结果
collect()	返回RDD中的所有元素	rdd.collect()	{1,2,3,3}
count()	计数	rdd.count()	4
countByValue()	各元素在RDD中出现的次数	rdd.countByValue()	{(1,1),(2,1),(3,2)}
take(n)	返回n个元素	rdd.take(2)	{1,2}
top(n)	返回最前面的n个元素	rdd.top(2)	{3,3}
takeOrdered(n)(ordering)	按照提供的顺序返回前n个元素	rdd.takeOrdered(2)(myOrdering)	{3,3}
takeSample(withReplacement,num,[seed])	返回任意一些元素	rdd.takeSample(false,1)	非确定的
reduce()	归并	rdd.reduce(_+_)	9
fold()()	类似于reduce，但需要初始值	rdd.fold(0)(_+_)	9
aggregate(zeroValue)(seqOp,combOp)	和 reduce() 相似，但是通常返回不同类型的函数	rdd.aggregate((0, 0)) ((x, y) => (x._1 + y, x._2 + 1), (x, y) => (x._1 + y._1, x._2 + y._2))	(9,4)
foreach()	对 RDD 中的每个元素使用给定的函数	rdd.foreach(func)	-

二、pairRDD的操作

1.pairRDD的转化操作

表2-1：以{(1,2),(3,4),(3,6)}为例

函数	目的	示例	结果
reduceByKey()	合并具有相同键的值	rdd.reduceByKey(_+_)	{(1,2),(3,10)}
groupByKey()	对具有相同键的值进行分组	rdd.groupByKey()	{(1,[2]),(3,[4,6])}
combinByKey(createCombiner, mergeValue,mergeCombiners,partitioner)	使用不同的返回类型合并具有相同键的值	-	-
mapValues(func)	对V应用func	rdd.mapValues(x=>x+1)	{(1,3),(3,5),(3,7)}
flatMapValues()	对V应用func(该func返回迭代器)，然后对返回的每一个元素都生成一个对应原键的键值对	rdd.flatMapValues(x=>(x to 5))	{(1,2),(1,3),(1,4),(1,5),(3,4),(3,5)}
keys()	返回仅包含键的RDD	rdd.keys()	{1,3,3}
values()	返回仅包含值的RDD	rdd.values()	{2,4,6}
sortByKey()	返回根据键排序的RDD	rdd.sortByKey()	{(1,2),(3,4),(3,6)}

表2-2：rdd=>{(1,2),(3,4),(3,6)} other=>{(3,9)}

函数	目的	示例	结果
subtractByKey	删掉rdd中键与other中键相同的元素	rdd..subtractByKey(other)	{(1,2)}
join	内链接	rdd.join(other)	{(3,(4,9)),(3,(6,9))}
rightOuterJoin	右外连接	rdd.rightOuterJoin(other)	{(3,(Some(4),9)),(3,(Some(6),9))}
leftOuterJoin	左外连接	rdd.leftOuterJoin(other)	{(1,(2,None)),(3,(4,Some(9))),(3,(6,Some(9)))}
cogroup	将两个RDD中有相同键的数据放到一起	rdd.cogroup(other)	{(1,([2],[])),(3,([4,6],[9]))}

2.pairRDD的行为操作

表2-3：rdd=>{(1,2),(3,4),(3,6)

函数	目的	示例	结果
countByKey()	对每个键对应的元素分别计数	rdd.countByKey()	{(1,1),(3,2)}
collectAsMap()	将结果以映射表的形式返回	rdd.collectAsMaop()	Map{(1,2),(3,4),(3,6)}
lookup(key)	返回给定键对应的所有值	rdd.lookup(3)	[4,6]

【注】本文参考《Spark快速大数据分析》

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

松花

学生

手记
篇

粉丝

94

获赞与收藏

669

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33050 373

网络编程入门教程

20个小节 13746 258

Pandas 入门教程

25个小节 20430 392

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

RDD的转化与行为

阅读免费教程