-
Hadoop适合处理离线的静态的大数据
Spark适合处理离线的流式的大数据
Storm适合处理在线的实时的大数据查看全部 -
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
查看全部 -
spark是快速的
Spark扩充了流行的Mapreduce计算模型
Spark是基于内存的计算
spark是通用的
容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护
优点:降低了维护成本
spark是高度开放的
提供了python、java、scala、SQL的API和丰富的内置库(Scala是spark的原生语言)
和其他的大数据工具整合的很好,包括hadoop、kafka等
查看全部 -
使用standalone mode启动spark:命令行输入
$ cd software/spark-2.4.4-bin-hadoop2.7/sbin $ ./start-master.sh 会输出log文件地址xxx $ tail xxx 会输出log文件末尾,找到Starting Spark master at spark://xxx.local:7077, 也可以浏览器访问http://localhost:8080/,出现视频中的网页
参考https://uohzoaix.github.io/studies//2014/09/13/sparkRunning/
查看全部 -
这里还可以写笔记啊
查看全部 -
Spark组件具有紧密集成的优点:
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
查看全部 -
RDDs的特性:
血统关系图,
延迟计算,
.persist()缓存
查看全部 -
开发Spark程序
查看全部 -
Spark Shell
查看全部 -
Spark对比Hadoop(2)
查看全部 -
Spark对比Hadoop(1)
查看全部 -
Spark采用紧密集成框架的优势
查看全部 -
Spark 集群管理
查看全部 -
Graphx
查看全部 -
Spark Streaming
查看全部
举报