-
HDFS特点: 1、数据冗余,硬件容错(一式三份来保证) 2、流式数据访问:写一次,读多次,一旦写入无法修改,只能通过写入到新的块删除旧文件 3、存储大文件(特适合,因为小文件多,势必加重NameNode的负担) HDFS适用性及局限性: 1、适合数据批量读写,吞吐量高 2、不适合交互式应用、低延迟很难满足 3、适合一次写入多次读取、顺序读写 4、不支持多用户并发写相同文件查看全部
-
预备知识查看全部
-
参考书查看全部
-
JobTracker的角色: 1)作业调度 2)分配任务、监控任务执行进度 3)监控TaskTracker的状态 MapReduce 的容错机制 1)重复执行(出错后重复执行4次) 2)推算执行(若其中一个TaskTracker执行的特别慢,会再启动一个TaskTracker再次执行,只要其中一个先完成,就会把另外一个终止掉)查看全部
-
并行处理框架,实现任务分解和调度查看全部
-
HDFS的特点 1)数据冗余,硬件容错(一式三份来保证) 2)流式数据访问:写一次,读多次,一旦写入无法修改,只能通过写入到新的块删除旧的块进行处理 3)存储大文件(特适合,因为小文件多,势必加重NameNode的负担)查看全部
-
客户端发出读写请求,namenode根据元数据返回给客户端,下载需要的block并组装 HDFS写入文件的流程: 1.客户端将文件拆分成块 2.客户端通知NameNode,NameNode返回可用的DataNode节点地址 3.客户端根据返回的DataNode将数据块写入到可用的DataNode中 4.因为数据块要有三份,所以会通过一个复制管道将每个数据块复制出另外两份并保存 5.更新元数据NameNode查看全部
-
数据块副本:每个数据块3个副本,分布在2机架3节点上(容错性) 心跳检测:DataNode定期向NameNode发心跳消息,刷新存在感!! 二级NameNode:NameNdoe定期同步元数据映像文件到二级NameNode(secondryNameNode),一旦故障,备胎转正,成正宫娘娘!查看全部
-
HDFS的文件被分成以默认64MB大小的块进行存储,块是文件存储处理的逻辑单元。 块的组成部分: 1)NameNode 是管理节点,存放文件元数据,包含2部分: - 文件与数据块的映射表 - 数据块与数据节点的映射表查看全部
-
abcde都是64M的数据块,三个副本查看全部
-
MapReduce查看全部
-
write查看全部
-
read查看全部
-
block查看全部
-
hive:便于开发人员开发,自动将sql语句转化为mapreduce hbase:可扩展性 zookeeper:监控各个节点状态。 目前1.2版本,2.以上版本尚不稳定。查看全部
举报
0/150
提交
取消