-
单词统计,拆分原理查看全部
-
MapReduce作业执行过程: 数据分片放入到TaskTracker-》JobTracker分配Map任务-》产生中间结果(Key-Value对)-》分配Reduce任务(完成合并)-》输出结果到HDFS MapReduce容错机制:(1)重复执行(4次);(2)推测执行(即对于任务速度很慢的个别任务,同时再开辟一个相同任务;两个相同任务同时执行,若两者中的一个完成了任务,另一个较慢的任务则被关闭)查看全部
-
JobTracker作用: (1)作业调度;(2)分配任务,监控任务执行进度;(3)监控TaskTracker的状态;TaskTracker作用: (1)执行任务;(2)向JobTracker更新执行状态;查看全部
-
基本概念:Job为作业,要完成的最终任务,Task为要完成作业的执行任务,在MapReduce中一般分为MapTask和ReduceTask。 在Hadoop MapReduce体系结构中,一般分为两类结点JobTracker和TaskTracker(包含MapTaskTracker和ReduceTaskTracker)。 一般,客户端提交任务给管理结点JobTracker,然后任务被拆分为Map任务和Reduce任务,并分发给MapTaskTracker和ReduceTaskTracker。通常TaskTracker结点和DataNode结点放在一起,方便任务执行时存储数据。查看全部
-
Mapreduce原理:分而治之,一个大任务分成多个子任务(map),并行执行之后,合并结果(reduce)。 eg:做统计的时候,把统计的文件拆分,然后分别统计每一个数据出现的次数,然后合并拆分项,就可以统计每一个数据出现的总次数。查看全部
-
一下操作的存取,都默认是在root文件下的 hadoop namenode -format: hadoop安装完成之后的格式化命令。 hadoop fs -ls/: 打印当前目录下的文件夹 hadoop fs -put 文件名.后缀 input/:把某文件提交到hdfs中 hadoop fs -get 文件名.后缀名:在指定路径中(默认是root),下载文件 hadoop dfsadmin -report:能查询整个hdfs的信息查看全部
-
HDFS特点: (1)数据冗余,硬件容错; (2)流式的数据存储(一个写,多次读,不可修改,若要修改,则删除原块,重新写入); (3)适合存储大型文件,因为小型文件在NameNode中也要占用元素据空间,使得NameNode的压力很大。 总的来说,HDFS的设计是用于存放大文件,做批量处理,吞吐量高。查看全部
-
HDFS读过程:客户端向NameNode发出程序命令,NameNode返回元数据,里面包含了:客户所需要的块在DataNode中的存放位置,然后由客户自己提取组织所需要的块。 HDFS写过程:客户文件拆分为块,NameNode返回可用磁盘,客户端再根据可用磁盘写数据,写完后自动备份(再本机架的某DataNode上备份一个,在其他机架上备份一个,遵守三备份,两机架原则),最后把写入的数据块的消息(以及备份位置)在NameNode中更新。查看全部
-
为了在快速存取的过程中提供高容错性,所以对每个数据块都有两个额外的副本,一共三个副本。它们分布在两个机架内的三个节点(一个机架上有多个结点),这样,若一个DataNode出现问题失效等错误,依旧可以在从替他副本提取信息。 同时,DataNode和NameNode之间存在一个“心跳协议”或者说是“心跳检测”,用于实时观察有没有失效,错误的DataNode。 以上得知NameNode非常重要,一旦出现问题会引起很大麻烦。为此,设计了一个SecondaryNameNode,二级NameNode。在NameNode出现故障时,二级NameNode变为主结点代替NameNode,否则一般情况下,二级NameNode只做备份,不接受任何消息。查看全部
-
hdfs基本概念:(1)块,hdfs文件是分块存储的,默认大小64M,块是文件存储处理的逻辑单元 (2)NameNode用于存放元数据,客户通过在该结点上查找元数据,使得NameNode知道文件被按块存储在了哪些DataNode上了,然后再在DataNode中提取对应的块中的信息。 (3)NameNode适用于存放元数据,并起到索引的作用;而DataNode则是管理块的,一个DataNode中包含很多块。查看全部
-
HDFS读取文件的流程查看全部
-
二级NameNode查看全部
-
心跳 DataNode会定期向NameNode发送状态。查看全部
-
数据块的备份和分布 每个数据块有三个副本,两个分布在一个机架上,还有一个放在另一个机架上。如果机架上的某个块挂了,可以在相同机架上副本,如果整个机架挂了,可以在另一个机架上找到。查看全部
-
DateNode是HDFS的工作节点。查看全部
举报
0/150
提交
取消