认识Hadoop--基础篇_学习笔记

首页免费课认识Hadoop--基础篇笔记

认识Hadoop--基础篇

最热最新

霜花似雪 02:34

Mapreduce原理：分而治之，一个大任务分成多个子任务（map），并行执行之后，合并结果（reduce）。 eg：做统计的时候，把统计的文件拆分，然后分别统计每一个数据出现的次数，然后合并拆分项，就可以统计每一个数据出现的总次数。 MapReduce处理数据过程主要分成2个阶段：Map阶段和Reduce阶段。首先执行Map阶段，再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现，但要符合MapReduce框架的约定。在正式执行Map前，需要将输入数据进行”分片”。所谓分片，就是将输入数据切分为大小相等的数据块，每一块作为单个Map Worker的输入被处理，以便于多个Map Worker同时工作。分片完毕后，多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后，进行计算处理，最终输出给Reduce。Map Worker在输出数据时，需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系，具有相同Key的数据会被发送给同一个Reduce Worker，单个Reduce Worker有可能会接收到多个Key值的数据。在进入Reduce阶段之前，MapReduce框架会对数据按照Key值排序，使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner)，框架会调用Combiner，将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后，一个Key的多条数据经过Reduce的作用后，将变成了一个值。

查看全部

2 采集收起来源：MapReduce的原理
2017-12-16
qq_一台设备两种生活_0

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

查看全部

2 采集收起来源：Hadoop安装-配置hadoop
2017-09-03
滕玉龙

hive(sql语句转换工具) habse(结构型数据，随机写入和实时读取) zookeeper(监控个节点使用、配置) ---------------------------- zookeeper监控hadoop每个节点的状态，管理集群配置，维护节点间数据的一致性。 ------------------------------- habase存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展。habase提供数据的随机读写和实时访问，实现对表数据的读写功能。 -------------------------------------------------- hdfs mapreduse hive：将SQL语句转化为hadoop任务执行 hbase：放弃事务特性，追求更高的扩展随机读写，实时访问 zookeeper：监控hadoop集群每个结点状态，管理整个集群配置，维护节点端一致性

查看全部

2 采集收起来源：Hadoop生态系统及版本
2017-06-19
qq_无知少年_1

数据块副本：每个数据块3个副本，分布在2机架3节点上（容错性）心跳检测：DataNode定期向NameNode发心跳消息，刷新存在感!! 二级NameNode：NameNdoe定期同步元数据映像文件到二级NameNode（secondryNameNode）,一旦故障，备胎转正，成正宫娘娘！

查看全部

2 采集收起来源：数据管理策略
2017-02-25
慕粉15192143

一脸懵逼

查看全部

2 采集收起来源：利用MapReduce进行排序（下）
2017-02-23
qq_Hh

（1） start -all.sh 启动hadoop （2）rz把某某.java类放到根目录下/opt/根目录下边或者根目录下任意文件 cd / mkdir project_hadoop/ rz 类路径添加（3）cd 新创建的文件,创建file1和file2 mkdir input vi file1 vi file2 ls project_hadoop （4）创建文件 hadoop fs -mkdir input_wordcount （5）创建目录：hadoop fs -mkdir input 查看文件： hadoop fs -ls hadoop fs -ls input_wordcount （6）把file1和file2文件放到input_wordcount 提交输入文件给hadoop hadoop fs -put 文件路径提交后的路径例：hadoop fs -put input/* input_wordcount/ （7）查看文件 hadoop fs -ls input_wordcount fs -cat input_wordcount/file1 fs -cat input_wordcount/file2 （8）编译java文件 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d 编译后地址编译文件（9）打包指令 jar -cvf 打包后文件名.jar 某某.class jar -cvf wordcount.jar *.class （10）提交jar给hadoop执行 hadoop jar jar包路径执行的主函数名(主类名，main方法所在类名) 输入目录名输出目录名例：hadoop jar project_hadoop/wordcount.jar WordCount input_wordcount output_wordcount （11）查看通过算法计算出单词个数的结果 fs -cat output_wordcount/part-r-00000

查看全部

2 采集收起来源：WordCount单词计数（下）
2017-02-23
侠客岛的含笑

HDFS特点： 1、数据冗余，软件方式保证低成本硬件容错。 2、流式读写（一次写入，多次读取，不可修改）。 3、适合存储大文件（否则namenode消耗高，头大身小）。优点：存储块大，吞吐量高，为存储大文件设计；缺点：延迟高，不适合交互式访问，不支持多用户同时操作一个块。

查看全部

2 采集收起来源：HDFS特点
2016-07-31
侠客岛的含笑

hadoop安装步骤： 1、安装JDK:apt-get install openjdk-7-jdk； 2、设置环境变量：JAVA_HOME、JRE_HOME、CLASSPATH、PATH 3、下载hadoop安装包并解压到指定目录下； 4、设置环境变量：HADOOP_HOME、PATH 5、修改相关配置文件$HADOOP_HOME/conf： 1）修改hadoop-env.sh，设置JAVA_HOME； 2）修改core-site.xml，设置hadoop.tmp.dir、dfs.name.dir、fs.default.name； 3）修改mapred-site.xml，设置mapred.job.tracker； 4）修改hdfs-site.xml，设置dfs.data.dir； 6、格式化：hadoop namenode -format； 7、启动：start-all.sh 8、检查：jps

查看全部

2 采集收起来源：安装小结
2016-07-27
侠客岛的含笑

hadoop生态系统： 1.hdfs 2.mapreduce 3.相关开源工具：（1）hive：将sql语句转化为hadoop任务（2）HBASE：存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展，它提供数据的随机读写和实时访问，实现对表数据的读写功能（3）zookeeper:监控Hadoop集群里的每个节点的状态，管理整个集群的配置，维护数据节点之间的一致性

查看全部

2 采集收起来源：Hadoop生态系统及版本
2016-07-27
慕田峪2733327

HDFS使用：它提供了 shell 接口，可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告

查看全部

2 采集收起来源：HDFS使用
2016-06-12
无名的凉风吹草地

见鬼，Sort.java中 String line = value.toString();会读取到空字符串，检查了一遍file根本没有这个，所以只能添加下面代码防止空字符串的读取。 if(line!="" && line.length() > 0){ data.set(Integer.parseInt(line)); }

查看全部

1 采集收起来源：利用MapReduce进行排序（下）
2018-03-22
青春居士

hadoop笔记：

查看全部

1 采集收起来源：Hadoop大数据平台架构与实践课程简介
2016-04-11
凯凯凯凯

wget http://mirror.bit.edu.cn/apache/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

查看全部

1 采集收起来源：Hadoop安装-配置hadoop
2016-03-09
qq_戀上淚戀_0 01:29

存储块大，吞吐量高，为存储大文件设计；延迟高，不适合交互式访问，不支持多用户同时操作一个块。

查看全部

1 采集收起来源：HDFS特点
2016-03-03
qq_戀上淚戀_0

HDFS特点：<br> 1、数据冗余，软件方式保证低成本硬件容错。<br> 2、流式读写（一次写入，多次读取，不可修改）。<br> 3、适合存储大文件（否则namenode消耗高，头大身小）。

查看全部

1 采集收起来源：HDFS特点
2018-03-22