为了账号安全,请及时绑定邮箱和手机立即绑定

Spark从零开始

Terby JAVA开发工程师
难度初级
时长 2小时18分
学习人数
综合评分9.80
56人评价 查看评价
9.8 内容实用
9.7 简洁易懂
9.9 逻辑清晰
  • 提交作业 ./bin/spark-submit --master spark://localhost.localdomain:7077 --class WordCount /data/spark/testspark.jar
    查看全部
  • 启动worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077
    查看全部
  • cluster managers 集群管理 spark自带集群管理是单独调度器
    查看全部
    1 采集 收起 来源:Spark生态介绍

    2017-04-08

  • graphx 是处理图的库(社交网络图),并计算图的禀性计算 想sparkstreaming sparksql一样他继承了rdds api 他提供了各种图的而操作和常用图计算例如 pangrank 应用图计算
    查看全部
    1 采集 收起 来源:Spark生态介绍

    2017-04-07

  • Spark组件图
    查看全部
    1 采集 收起 来源:Spark生态介绍

    2017-03-24

  • Transformation  从一个 RDD 构建新的 RDD  

    查看全部
  • RDDs 介绍: 弹性分布式数据集,所有的计算都是通过 RDDs “创建-转换-完成”的

    .textFile("/xx" ) 导入的文件过大时,会自动分割文件,在集群中分割

    ------------------------------------------------

    .parallelize(x,x) 方法,将已存在的集合对象,按分区分片导入 RDD 对象

    Scala  脚本语法: val 常量     var 变量 (可重新指向,但必须是同类型)

    ------------------------------------------------

    Scala 语法: 匿名函数当做参数 .filter=>(line.contains("xx"))

    查看全部
    0 采集 收起 来源:Rdds介绍

    2023-03-22

  • 演示了 ssh 不需要输密码的修改

    执行 ssh-keygen (一路回车)

    执行 cd .ssh 看到几个文件,其中 .pub 为公钥

    创建文件 authorized_keys 文件

    执行 cat 文件 > 文件   (把那个 .pub 导入 authorized_keys )

    chmod 600 authorized_keys


    验收:再执行 ssh  localhost 看到启动后不需要输入密码

    ---------------------------------------------------------------

    给集群提交作业,也是把作业(工程)打包成  jar 然后上传到服务路径

    ./bin/spark-submit  ....   xx.jar (工程) 

    查看全部
  • scala 在 idea 里新建 java 项目,在 idea 搜素插件 scala 并安装(已经安装了)

    file -> new project -> sbt (表示用 sbt 打包) 等待生成各种目录和文件

    版本匹配: scala , spark , jdk , sbt 的版本都要匹配

    查看全部
  • spark  基于 scala 运行在 jvm 环境中 1.7版本以上

    spark 不依赖 hadoop

    目录:

        bin 可执行文件

        core streaming python 包含组件源代码

        examples 包含单机 job 例子,以供研究


    执行命令:

    ./spark-shell  (等待时间较长)

    在执行成功后可看到 scala> 提示符,然后就可以使用 python 进行交互了

    查看全部
    0 采集 收起 来源:spark安装

    2023-03-21

  • hadoop 缺点:离线处理,导致时效性差,几分钟几小时为单位

    spark 有点:时效性高,在内存里进行

    查看全部
  • Spark Core :任务调度,内存管理,容错机制

    RDDs : 弹性分布式数据集

    Spark SQL:处理结构式数据

    Mlib: 机器学习相关的包(支持集群扩展,python 缺点是单机性能有限)

    查看全部
    0 采集 收起 来源:Spark生态介绍

    2023-03-21

  • Spark 快速且通用的集群计算平台

    -快速,比hadoop快,基于内存的 MapReduce(计算结果中间数据在内存中)

    -通用,应用场景更多,批处理,迭代计算,交互查询,流处理


    由 scala 语言编写,但是 python java 也支持

    查看全部
    0 采集 收起 来源:Spark简介

    2023-03-21

  • combineByKey():

    (createCombiner, mergeValue, mergeCombiners, partitioner)

    最常用的基于key的聚合函数,返回的类型可以与输入类型不一样。

    许多基于key的聚合函数都用到了它,像groupByKey()

    遍历partition中的元素,元素的key,要么之前见过的,要么不是。

    如果是新元素,使用我们提供的createCombiner()函数

    如果是这个partition中已经存在的key,就会使用mergeValue()函数

    合并每个partition的结果的时候,使用mergeCombiners()函数

    http://img1.sycdn.imooc.com//636bd05f0001a61607660355.jpg

    http://img1.sycdn.imooc.com//636bd0b0000117e508160304.jpg


    http://img1.sycdn.imooc.com//636bd12b00010e6412890436.jpg

    http://img1.sycdn.imooc.com//636bd2db0001cee412870477.jpg


    http://img1.sycdn.imooc.com//636bd3190001184c12840275.jpg

    查看全部
  • keyvalue对rdds:

    创建keyvalue对rdds,使用map()函数,返回key/value对


    例如,包含数行数据的rdd,把每行数据的第一个单词作为keys。



    http://img1.sycdn.imooc.com//636bcafd0001fd9510890361.jpg

    http://img1.sycdn.imooc.com//636bcb0c0001fddc10730242.jpg

    http://img1.sycdn.imooc.com//636bcdc40001686610870342.jpg

    http://img1.sycdn.imooc.com//636bcf7d0001a28510770250.jpg


    查看全部

举报

0/150
提交
取消
课程须知
1、 简单Linux的操作
老师告诉你能学到什么?
1、了解Spark到底是什么 2、了解Spark和Hadoop的区别 3、了解Spark的基础知识和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的开发和部署流程

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!