已解决430363个问题，去搜搜看，总会有你想问的

Spark中parallelize函数和makeRDD函数的区别

关注

首页猿问 Spark中parallelize...

Spark中parallelize函数和makeRDD函数的区别

Spark

拉莫斯之舞 2019-02-13 09:17:24

Spark中parallelize函数和makeRDD函数的区别

查看完整描述

1 回答

阿波罗的战车

TA贡献1862条经验获得超6个赞

Spark主要提供了两种函数：parallelize和makeRDD：
1）parallelize的声明：
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]

2）makeRDD的声明：
def makeRDD[T: ClassTag](

seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]
def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T]

3）区别：

A）makeRDD函数比parallelize函数多提供了数据的位置信息。
B）两者的返回值都是ParallelCollectionRDD，但parallelize函数可以自己指定分区的数量，而makeRDD函数固定为seq参数的size大小。