-
hadoop的组成
查看全部 -
hadoop的应用情况
查看全部 -
hadoop的功能和优势:
Hadoop是什么:是一个开源的、分布式存储和分布式计算平台;
两个核心组件:
1.HDFS,分布式文件系统,存储海量数据
2.MapReduce,并行处理框架,实现任务分解和调度
Hadoopk可以做什么?
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。
hadoop的优势:
1.高扩展,理论上无限扩展
2.低成本
3.成熟的生态圈
查看全部 -
google大数据技术:mapreduce,BigTable,GFS;
革命性的变革1:成本降低
变革2:软件容错,通过软件保证可靠性
变革3:简化了分布式并行计算,无需控制节点同步和数据交换
hadoop:模仿google大数据技术的开源实现
查看全部 -
JobTracker的作用:
作业调度
分配任务、监控任务执行进度
监控TaskTracker的状态
TaskTracker的作用:
执行任务
mapreduce容错机制:
1、重复执行,因为job问题,硬件问题,数据问题等等一起任务异常,导致 重试,默认重复4次失败就会放弃执行
2、所有的map任务执行完成才继续执行reduce任务,如果某一个节点计算特别慢,就新起一个节点和这个慢节点做相同的计算任务,只要其中一个完成即可
查看全部 -
MapReduce的原理:分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
查看全部 -
hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input<br> hadoop获取文件命令 hadoop fs -get<br> hadoop删除文件命令 hadoop fs -rm <br> hadoop创建目录命令 hadoop fs -mkdir<br> hadoop 格式化操作 : hadoop namenode -formet hadoop查看存储信息 hadoop dfsadmin -report<br>
查看全部 -
查看全部
-
hdfs读取数据流程:
读取:
1、客户端想namenode请求
2、namenode返回元数据(数据包含哪些块,以及这些块的位置等等)
3、读数据数据块并组装
查看全部 -
hdfs写入:
1、客户端拆分文件
2、客户端请求namenode,namenode返回可以用的datanode
3、写入数据块到datanode
4、复制数据库
5、更新元数据到namenode
查看全部 -
HDFS设计架构:
块:文件以“块”进行存储,HDFS默认块大小为64M
namenode:是管理节点,存放文件元数据,包括文件与数据块的映射表、数据块与数据节点的映射表
datenode:工作节点,真正存储数据块 最终体系结构:由block、namenode、datanode、secondarynamenode、client组成
查看全部 -
HDFS 分布式文件系统
MapReduce 并行处理矿建
HIVE 将SQL语句转化为Hadoop任务 ,降低使用门槛
HBASE 存储结构化数据的分布式数据库
(放弃了事务特性 最求更高的扩展)
zookeeper 监控Hadoop集群的状态、管理配置、维护节点一次性
查看全部 -
Hadoop是开源的分布式存储、分布式计算平台
两个核心组成:HDFS分布式文件系统,存储海量的数据
MapReduce并行处理框架,实现任务分解和调度
作用:可以搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
优势:
1、高扩展
2、低成本
3、成熟的生态圈
查看全部 -
Google大数据技术的革命性的变化
1、成本低,能用PC机,就不用大型机和高端存储
2、软件容错硬件故障视为常态,通过软件保证可靠性。
3、简化并行分布式计算,无须控制节点同步和数据交换
查看全部 -
1个job就是一个目标,完成目标需要分解成多个task
查看全部
举报