-
———————————————————
查看全部 -
hdfs总结
查看全部 -
hadoop核心
查看全部 -
什么是大数据
查看全部 -
问题回顾:
数据块的大小设置为多少比较合适?
一般设置为128MB,设置过小,访问时数据时效率不高,对NameNade的内存消耗严重。数据块设置过大,降低对并行的支持
会使数据重启的时间延长。
如果NameNode挂掉了怎么办?
配用高可用集群ha存在两个NameNode节点,一个处于active请求状态,另一个处于standby备份状态,两者数据时刻保持一致
查看全部 -
hadoop是什么?
1.开源的大数据框架
2.分布式计算的解决方案
3.hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
hadoop的核心?
1.HDFS分布式文件系统:存储大数据技术的基础
2.MapReduce编程模型:分布式计算提供处理大数据应用的解决方
HDFS概念
1.数据块
抽象的单个文件作为单元存储单元,默认大小为64MB,一般设置为128M,备份X3
2.NameNode
管理文件系统的命名空间,存放文件元数据
维护文件系统的所有文件和目录,文件于数据块的映射
记录每个文件中各个块所在数据节点的信息
3.DataNode
存储并检索数据块
向NameNode发送并更新所存储的列表
HDFS的优缺点
1.优点
适合大文件,可以构建在廉价的机器上,并有一定的容错和恢复机制,支持流式数据访问,一次写入,多次读取最高效
2.缺点
不适合小文件存储,不适合并发写入,不支持随机修改和随机读等低延时的访问方式
问题1:如果NameNode挂掉了怎么办?
将SecondaryNameNode中数据拷贝到namenode存储数据的目录
查看全部 -
大数据的定义
大数据是一个概念和一门技术,以hadoop 为代表的大数据平台框架上进行各种数据分析的技术 包括以hadoop,spark为代表的基础大数据框架还包括实时处理数据,离线处理数据;数据分析,数据挖掘和用机器算法进行预测分析等技术
查看全部 -
MapReduce 原理
查看全部 -
HDFS 的读流程
查看全部 -
HDFS 的写流程
(1) 首先客户端向NameNode发起写数据请求,NameNode保存的各个DataNode状态,检索的DataNode1、2、3有空间可以存储
(2)客户端将分块儿数据写入DataNode,DataNode完成自动备份
(3)DataNode向NameNode汇报存储完成,NameNode通知客户端
查看全部 -
Hadoop优缺点:适合大量文件TB、PB级的文件存储有副本出策略,适合一次写入多次读取;
不适合小规模数据以及随机读取这种场景
查看全部 -
Hadoop 是大数据存储与计算的分布式解决方案,其中HDFS大叔模具存储而MapReduce是大数据计算的解决方案
NameNode 存储文件元数据、维护文件系统的所有文件和目录以及文件与数据块的映射。记录每个文件中各个块所在数据节点的信息。
查看全部 -
下载,更改权限
查看全部 -
实验步骤1 将本地文件上传到hdfs中
查看全部 -
常用的hdfs shell命令
查看全部
举报