-
fsimage: 文件系统镜像 , 源数据镜像文件,某一时刻Namenode内存中的源数据信息,也可理解为快照
edits: 存储用户的操作记录,包括修改,不包括查询
seed_txid: 默认为0, 存储edits 后面的序号,倒序查找,方便恢复
seondaryNamenode 触发
1个小时
100万次操作
查看全部 -
基本安装环境
查看全部 -
分布/伪分布集群安装
查看全部 -
HDFS分布式存储系统!
查看全部 -
MapReduce之map阶段执行过程
1、框架会把输入文件(夹)划分成很多InputSplit,默认,每个HDFS的block对应一个InputSplit。通过RecordReader类把每个InputSplit解析成一个个<k1,v1>。默认每行会被解析成一个<k1,v1>
2、框架调用Mapper类中的map(...)函数,map函数的形参是<k1,v1>,输出是<k2,v2>。一个InputSplit对应一个map task
查看全部 -
MapReduce概述
1、MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题
2、MapReduce是分布式运行的,由两个阶段组成:Map和Reduce
3、MapReduce框架都有默认实现,,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。
查看全部 -
HDFS(dIstributed File System)
1、HDFS是一种允许文件通过网络在多台机器上分享的文件系统,可以让多机器上的多用户分享文件和存储空间
2、分布式文件管理系统有很多,HDFS只是其中一种实现,HDFS不适合存储小文件
查看全部 -
Hadoop发行版介绍
查看全部 -
大数据生态圈
查看全部 -
Yarn架构分析
1、Yarn主要负责集群资源的管理和调度,支持主从架构,主节点最多可以有2个,从节点可以有多个。
2、主节点(ResourceManager)进程主要负责集群资源的分配和管理
3、从节点(NodeManager)主要负责单节点资源管理
查看全部 -
HDFS架构分析
1、HDFS负责海量数据的分布式存储
2、HDFS支持主从结构,主节点支持多个NameNode,从节点支持多个DataNode
3、NameNode负责接收用户请求,维护目录系统的目录结构。DataNoe主要负责存储数据。
查看全部 -
分布式计算
1、第一阶段:数据节点计算程序
2、第二阶段:汇总程序
查看全部 -
分布式存储
查看全部 -
多文件处理过程2
查看全部 -
Hadoop发行版本
查看全部
举报