Spark从零开始_学习笔记

首页免费课 Spark从零开始笔记

Spark从零开始

最热最新

zrey 17:46

Wordcount

//Scala

Object WordCount{
    def main(args: Array[String]){
        val conf= new SparkConf().setAppName("wordcount")
        val sc = new SparkContext(conf)
        
        val input= sc.textFile("/home/soft/hello.txt")
        //RDD操作：压扁
        val lines = input.flatMap(line=> line.split(" "))
        //转换成kv对
        val count= lines.map(word=>(word,1)).reduceByKey{case (x,y)=>x+y}
        val output= count.saveAsTextFile("/home/result")
    }
}

Project Structure -> Artifacts ->+然后 BuildArtifacts 打包Jar

启动集群：

启动master start-master.sh

启动worker spark-class

提交作业 spark-submit

#启动worker
spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:4040
#提交
spark-submit --master spark://localhost.localdomain:4040 --class WordCount /home/soft/hello.jar
#上传jar包
rz -be

查看全部

0 采集收起来源：开发第一个Spark程序

2022-03-23

慕函数5144596 08:10

RDDS的特性

查看全部

0 采集收起来源：RDDS的特性
2021-09-28
慕函数5144596 06:36

RDD基本操作之action

查看全部

0 采集收起来源：RDD基本操作之Action
2021-09-28
Jason_小杰 07:35

rdd缓存级别

查看全部

0 采集收起来源：RDDS的特性
2021-08-28
Jason_小杰 07:10

小结

查看全部

0 采集收起来源：RDD基本操作之Action
2021-08-28
Jason_小杰 06:45

distinct：驱虫
union：合并
intersection：交集
subtract：差集

查看全部

0 采集收起来源：RDDs基本操作之Transformations（二）
2021-08-28
Jason_小杰 01:59

spark与hadoop
spark计算时效：几秒钟、几分钟
存储：基于内存计算，需要借助hdfs持久化数据

查看全部

0 采集收起来源：Spark与Hadoop的比较
2021-08-28
Jason_小杰 03:26

spark core

查看全部

0 采集收起来源：Spark生态介绍
2021-08-28
Jason_小杰 01:03

spark的生态

查看全部

0 采集收起来源：Spark生态介绍
2021-08-28
慕后端4477088 05:12

take（n）：
随机取n个数

查看全部

0 采集收起来源：RDD基本操作之Action
2020-07-28
慕后端4477088 04:23

collect（）

查看全部

0 采集收起来源：RDD基本操作之Action
2020-07-28
慕后端4477088 01:04

:222222

查看全部

0 采集收起来源：RDD基本操作之Action
2020-07-28
慕后端4477088 00:57

rdd action：

查看全部

0 采集收起来源：RDD基本操作之Action
2020-07-28
慕粉1446071354

后续课程：
Spark架构
Spark运行过程
Spark程序部署

查看全部

0 采集收起来源：Spark课程总结
2020-05-24
慕粉1446071354
combineByKey():
- (createCombiner, mergeValue, mergeCombiners, partitioner)
- 最常用的基于key的聚合函数，返回的类型可以与输入类型不一样。
- 许多基于key的聚合函数都用到了它，像groupByKey()
- 遍历partition中的元素，元素的key，要么之前见过的，要么不是。
- 如果是新元素，使用我们提供的createCombiner()函数
- 如果是这个partition中已经存在的key，就会使用mergeValue()函数
- 合并每个partition的结果的时候，使用mergeCombiners()函数
查看全部

0 采集收起来源：KeyValue对RDDs(二)
2020-05-24