认识Hadoop--基础篇_学习笔记

首页免费课认识Hadoop--基础篇笔记

认识Hadoop--基础篇

最热最新

慕婉清9149029 00:38

hadoop的组成

查看全部

0 采集收起来源：Hadoop的功能与优势
2019-11-19
慕婉清9149029 02:47

hadoop的应用情况

查看全部

0 采集收起来源：Hadoop的功能与优势
2019-11-17
慕婉清9149029

hadoop的功能和优势：
Hadoop是什么：是一个开源的、分布式存储和分布式计算平台；
两个核心组件：
    1.HDFS，分布式文件系统，存储海量数据
    2.MapReduce，并行处理框架，实现任务分解和调度
Hadoopk可以做什么？
    搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。
hadoop的优势：
    1.高扩展，理论上无限扩展
    2.低成本
    3.成熟的生态圈

查看全部

3 采集收起来源：Hadoop的功能与优势
2019-11-17
慕婉清9149029

google大数据技术：mapreduce，BigTable，GFS；
革命性的变革1：成本降低
变革2：软件容错，通过软件保证可靠性
变革3：简化了分布式并行计算，无需控制节点同步和数据交换
hadoop：模仿google大数据技术的开源实现

查看全部

0 采集收起来源：Hadoop的前世今生
2019-11-17
慕标226518

JobTracker的作用：
作业调度
分配任务、监控任务执行进度
监控TaskTracker的状态
TaskTracker的作用：
执行任务
mapreduce容错机制：
1、重复执行，因为job问题，硬件问题，数据问题等等一起任务异常，导致重试，默认重复4次失败就会放弃执行
2、所有的map任务执行完成才继续执行reduce任务，如果某一个节点计算特别慢，就新起一个节点和这个慢节点做相同的计算任务，只要其中一个完成即可

查看全部

0 采集收起来源：MapReduce的运行流程
2019-11-05
慕标226518

MapReduce的原理：分而治之，一个大任务分成多个小的子任务（map）,并行执行后，合并结果（reduce）

查看全部

0 采集收起来源：MapReduce的原理
2019-11-05
慕标226518

hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input hadoop获取文件命令 hadoop fs -get hadoop删除文件命令 hadoop fs -rm hadoop创建目录命令 hadoop fs -mkdir hadoop 格式化操作 : hadoop namenode -formet hadoop查看存储信息 hadoop dfsadmin -report 

查看全部

0 采集收起来源：HDFS使用
2019-11-05
慕标226518

HDFS特点
1、数据大量冗余
2、流式数据访问：一次写入多次读取，一旦写入，无法修改
3、存储大文件
4、吞吐量高，适合批量读写
5、不适合交互式应用，延时性无法满足
6、不支持多用户并发写相同的文件

查看全部

0 采集收起来源：HDFS特点
2019-11-05
慕标226518

hdfs读取数据流程：
读取：
1、客户端想namenode请求
2、namenode返回元数据（数据包含哪些块，以及这些块的位置等等）
3、读数据数据块并组装

查看全部

1 采集收起来源：HDFS中文件的读写操作
2019-11-05
慕标226518

hdfs写入：
1、客户端拆分文件
2、客户端请求namenode，namenode返回可以用的datanode
3、写入数据块到datanode
4、复制数据库
5、更新元数据到namenode

查看全部

1 采集收起来源：HDFS中文件的读写操作
2019-11-05
慕标226518

HDFS设计架构：
块:文件以“块”进行存储，HDFS默认块大小为64M
namenode：是管理节点，存放文件元数据，包括文件与数据块的映射表、数据块与数据节点的映射表
datenode：工作节点，真正存储数据块最终体系结构：由block、namenode、datanode、secondarynamenode、client组成

查看全部

0 采集收起来源：HDFS基本概念
2019-11-04
慕标226518

HDFS 分布式文件系统
MapReduce 并行处理矿建
HIVE 将SQL语句转化为Hadoop任务，降低使用门槛
HBASE 存储结构化数据的分布式数据库
（放弃了事务特性最求更高的扩展）
zookeeper 监控Hadoop集群的状态、管理配置、维护节点一次性

查看全部

0 采集收起来源：Hadoop生态系统及版本
2019-11-04
慕标226518

Hadoop是开源的分布式存储、分布式计算平台
两个核心组成：HDFS分布式文件系统，存储海量的数据
MapReduce并行处理框架，实现任务分解和调度
作用：可以搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务
优势：
1、高扩展
2、低成本
3、成熟的生态圈

查看全部

0 采集收起来源：Hadoop的功能与优势
2019-11-04
慕标226518

Google大数据技术的革命性的变化
1、成本低，能用PC机，就不用大型机和高端存储
2、软件容错硬件故障视为常态，通过软件保证可靠性。
3、简化并行分布式计算，无须控制节点同步和数据交换

查看全部

0 采集收起来源：Hadoop的功能与优势
2019-11-04
buman 00:33

1个job就是一个目标，完成目标需要分解成多个task

查看全部

0 采集收起来源：MapReduce的运行流程
2019-10-12

首页上一页 7 8 9 10 11 12 13 下一页尾页

0/150

提交

取消

开始学习

课程须知: 本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～

老师告诉你能学到什么？: 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理

微信扫码，参与3人拼团

热搜

最近搜索清空

认识Hadoop--基础篇

HDFS特点