认识Hadoop--基础篇_学习笔记

首页免费课认识Hadoop--基础篇笔记

认识Hadoop--基础篇

最热最新

书子 02:36

写操作流程

查看全部

0 采集收起来源：HDFS中文件的读写操作
2016-07-19
书子 01:24

NameNode管理节点，存放元数据 1.文件与数据块的映射表 2.数据块与数据节点的映射表

查看全部

0 采集收起来源：HDFS基本概念
2016-07-19
lance_298

hadoop安装步骤： 1、安装JDK:apt-get install openjdk-7-jdk； 2、设置环境变量：JAVA_HOME、JRE_HOME、CLASSPATH、PATH 3、下载hadoop安装包并解压到指定目录下； 4、设置环境变量：HADOOP_HOME、PATH 5、修改相关配置文件$HADOOP_HOME/conf： 1）修改hadoop-env.sh，设置JAVA_HOME； 2）修改core-site.xml，设置hadoop.tmp.dir、dfs.name.dir、fs.default.name； 3）修改mapred-site.xml，设置mapred.job.tracker； 4）修改hdfs-site.xml，设置dfs.data.dir； 6、格式化：hadoop namenode -format； 7、启动：start-all.sh 8、检查：jps

查看全部

0 采集收起来源：安装小结
2016-07-16
Feater 02:57

JAVA 环境变量的设置

查看全部

0 采集收起来源：Hadoop安装-安装JDK
2016-07-15
Alex3620688 04:25

namenode

查看全部

0 采集收起来源：Hadoop安装-配置hadoop
2016-07-07
侠客岛的含笑

Google大数据技术： 1.MapReduce：概念"Map（映射）"和"Reduce（归约）"，它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。 2.BigTable：是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库 3.GFS：是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，并提供容错功能。它可以给大量的用户提供总体性能较高的服务。 hadoop革命性变 1.成本降低，能用PC机，不用大型机和高端存储 2.软件容错硬件故障视为常态，通过软件保证可靠性 3.简化并行分布式计算，无须控制节点同步和数据交换

查看全部

0 采集收起来源：Hadoop的前世今生
2018-03-22
只要你开心 00:40

安装Hadoop

查看全部

0 采集收起来源：Hadoop安装-获取linux操作系统
2016-07-05
慕粉3413316

conf 下有四个文件需要配置 core.site.xml hadoop.env.sh hdfs-sete.xml

查看全部

0 采集收起来源：Hadoop安装-配置hadoop
2016-07-04
慕粉3413316

hadoop 网络下载路径 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

查看全部

0 采集收起来源：Hadoop安装-配置hadoop
2016-07-04
laonong 01:51

Google大数据技术 MapReduce、BigTable、GFS

查看全部

0 采集收起来源：Hadoop的前世今生
2016-07-03
laonong 02:26

《Hadoop权威指南》《Hadoop技术详解》

查看全部

0 采集收起来源：Hadoop大数据平台架构与实践课程简介
2016-07-03
慕粉15305514126 03:28

如果你发现困难，代表你在上升，就像骑车一样

查看全部

0 采集收起来源：Hadoop大数据平台架构与实践课程简介
2016-07-03
snow5hao

MapReduce处理数据过程主要分成2个阶段：Map阶段和Reduce阶段。首先执行Map阶段，再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现，但要符合MapReduce框架的约定。在正式执行Map前，需要将输入数据进行”分片”。所谓分片，就是将输入数据切分为大小相等的数据块，每一块作为单个Map Worker的输入被处理，以便于多个Map Worker同时工作。分片完毕后，多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后，进行计算处理，最终输出给Reduce。Map Worker在输出数据时，需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系，具有相同Key的数据会被发送给同一个Reduce Worker，单个Reduce Worker有可能会接收到多个Key值的数据。在进入Reduce阶段之前，MapReduce框架会对数据按照Key值排序，使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner)，框架会调用Combiner，将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后，一个Key的多条数据经过Reduce的作用后，将变成了一个值。

查看全部

6 采集收起来源：MapReduce的原理
2016-06-24
snow5hao 04:05

MapReduce作用执行过程

查看全部

0 采集收起来源：MapReduce的运行流程
2016-06-24
huangpei 01:20

HBASE

查看全部

0 采集收起来源：Hadoop生态系统及版本
2016-06-20