为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
学习人数
综合评分9.17
211人评价 查看评价
9.4 内容实用
9.1 简洁易懂
9.0 逻辑清晰
  • 单词统计,拆分原理
    查看全部
  • MapReduce作业执行过程: 数据分片放入到TaskTracker-》JobTracker分配Map任务-》产生中间结果(Key-Value对)-》分配Reduce任务(完成合并)-》输出结果到HDFS MapReduce容错机制:(1)重复执行(4次);(2)推测执行(即对于任务速度很慢的个别任务,同时再开辟一个相同任务;两个相同任务同时执行,若两者中的一个完成了任务,另一个较慢的任务则被关闭)
    查看全部
  • JobTracker作用: (1)作业调度;(2)分配任务,监控任务执行进度;(3)监控TaskTracker的状态;TaskTracker作用: (1)执行任务;(2)向JobTracker更新执行状态;
    查看全部
  • 基本概念:Job为作业,要完成的最终任务,Task为要完成作业的执行任务,在MapReduce中一般分为MapTask和ReduceTask。 在Hadoop MapReduce体系结构中,一般分为两类结点JobTracker和TaskTracker(包含MapTaskTracker和ReduceTaskTracker)。 一般,客户端提交任务给管理结点JobTracker,然后任务被拆分为Map任务和Reduce任务,并分发给MapTaskTracker和ReduceTaskTracker。通常TaskTracker结点和DataNode结点放在一起,方便任务执行时存储数据。
    查看全部
  • Mapreduce原理:分而治之,一个大任务分成多个子任务(map),并行执行之后,合并结果(reduce)。 eg:做统计的时候,把统计的文件拆分,然后分别统计每一个数据出现的次数,然后合并拆分项,就可以统计每一个数据出现的总次数。
    查看全部
    0 采集 收起 来源:MapReduce的原理

    2016-04-22

  • 一下操作的存取,都默认是在root文件下的 hadoop namenode -format: hadoop安装完成之后的格式化命令。 hadoop fs -ls/: 打印当前目录下的文件夹 hadoop fs -put 文件名.后缀 input/:把某文件提交到hdfs中 hadoop fs -get 文件名.后缀名:在指定路径中(默认是root),下载文件 hadoop dfsadmin -report:能查询整个hdfs的信息
    查看全部
    0 采集 收起 来源:HDFS使用

    2016-04-22

  • HDFS特点: (1)数据冗余,硬件容错; (2)流式的数据存储(一个写,多次读,不可修改,若要修改,则删除原块,重新写入); (3)适合存储大型文件,因为小型文件在NameNode中也要占用元素据空间,使得NameNode的压力很大。 总的来说,HDFS的设计是用于存放大文件,做批量处理,吞吐量高。
    查看全部
    0 采集 收起 来源:HDFS特点

    2016-04-22

  • HDFS读过程:客户端向NameNode发出程序命令,NameNode返回元数据,里面包含了:客户所需要的块在DataNode中的存放位置,然后由客户自己提取组织所需要的块。 HDFS写过程:客户文件拆分为块,NameNode返回可用磁盘,客户端再根据可用磁盘写数据,写完后自动备份(再本机架的某DataNode上备份一个,在其他机架上备份一个,遵守三备份,两机架原则),最后把写入的数据块的消息(以及备份位置)在NameNode中更新。
    查看全部
  • 为了在快速存取的过程中提供高容错性,所以对每个数据块都有两个额外的副本,一共三个副本。它们分布在两个机架内的三个节点(一个机架上有多个结点),这样,若一个DataNode出现问题失效等错误,依旧可以在从替他副本提取信息。 同时,DataNode和NameNode之间存在一个“心跳协议”或者说是“心跳检测”,用于实时观察有没有失效,错误的DataNode。 以上得知NameNode非常重要,一旦出现问题会引起很大麻烦。为此,设计了一个SecondaryNameNode,二级NameNode。在NameNode出现故障时,二级NameNode变为主结点代替NameNode,否则一般情况下,二级NameNode只做备份,不接受任何消息。
    查看全部
    0 采集 收起 来源:数据管理策略

    2016-04-22

  • hdfs基本概念:(1)块,hdfs文件是分块存储的,默认大小64M,块是文件存储处理的逻辑单元 (2)NameNode用于存放元数据,客户通过在该结点上查找元数据,使得NameNode知道文件被按块存储在了哪些DataNode上了,然后再在DataNode中提取对应的块中的信息。 (3)NameNode适用于存放元数据,并起到索引的作用;而DataNode则是管理块的,一个DataNode中包含很多块。
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2016-04-22

  • HDFS读取文件的流程
    查看全部
  • 二级NameNode
    查看全部
    0 采集 收起 来源:数据管理策略

    2016-04-22

  • 心跳 DataNode会定期向NameNode发送状态。
    查看全部
    0 采集 收起 来源:数据管理策略

    2016-04-22

  • 数据块的备份和分布 每个数据块有三个副本,两个分布在一个机架上,还有一个放在另一个机架上。如果机架上的某个块挂了,可以在相同机架上副本,如果整个机架挂了,可以在另一个机架上找到。
    查看全部
    0 采集 收起 来源:数据管理策略

    2016-04-22

  • DateNode是HDFS的工作节点。
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2016-04-22

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理

微信扫码,参与3人拼团

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!