-
hdfs写入:
1、客户端拆分文件
2、客户端请求namenode,namenode返回可以用的datanode
3、写入数据块到datanode
4、复制数据库
5、更新元数据到namenode
查看全部 -
hdfs读取数据流程:
读取:
1、客户端想namenode请求
2、namenode返回元数据(数据包含哪些块,以及这些块的位置等等)
3、读数据数据块并组装
查看全部 -
二级namenode定期从主namenode同步元数据映像文件盒修改日志,一旦主namenode宕机,二级namenode转正成为主namenode
查看全部 -
datenode定期向namenode发送心跳检测
查看全部 -
默认每个数据块有三个副本,其中两个在同一个机架,一个在另一个机架来保证容错
查看全部 -
namenode:管理节点,存放文件元数据,即文件与数据块映射表,数据块与数据节点的映射表
查看全部 -
hive:把sql语句转化成hadoop任务执行
zookeeper:监控管理hadoop集群每个节点的状态
查看全部 -
google大数据技术(降低成本,容错,简化分布式计算):
mapreduce bigtable gfs(没有开源)
而hadoop是基于google大数据技术的开元实现查看全部 -
hdfs查看全部
-
这四个啊!!
mapred-site.xml
hdfs-site.xml
core-site.xml
hadoop-env.sh查看全部 -
Hadoop可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
优势:
高扩展(基于框架增加硬件实现)
低成本(不依赖于高端机,只需要PC机,利用软件容错确保可靠性)
查看全部 -
Hadoop是一个开源的分布式存储+分布式计算平台
包括两个核心组成:
HDFS:分布式文件系统,存储海量的数据
MapReduce:并行处理框架,实现任务分解和调度
查看全部 -
Hadoop是一个模仿Google大数据技术的开源实现
查看全部 -
系统瓶经:存储容量、读写速率、计算效率......
Google大数据技术:MapReduce、BigTable、GFS
革命性变化:
成本降低,能用PC机,就不用大型机和高端存储。
软件容错硬件故障视为常态,通过软件保证可靠性
简化并行分布式计算,无须控制节点同步和数据交换
查看全部 -
组成查看全部
举报