认识Hadoop--基础篇_学习笔记

首页免费课认识Hadoop--基础篇笔记

认识Hadoop--基础篇

最热最新

紫境之巅 01:00

Hadoop配置 1，下载Hadoop安装包地址：http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz $ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2、解压到指定目录下； $ mv 文件 /opt 解压 $ tar -zxvf hadoop-1.2.1.tar.gz 3、配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个文件；进入conf下 $ cd conf/ $ vim hadoop-env.sh 打开配置Javahome 配置<configuration> 4、编辑/etc/profile文件，配置hadoop相关的环境变量； 5、第一次使用hadoop先进行格式化： $ hadoop namenode -format； 6、启动hadoop:start-all.sh； 7、检查进程：jps；

查看全部

7 采集收起来源：Hadoop安装-配置hadoop
2018-03-22
远舰攻城狮 01:27

hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input hadoop获取文件命令 hadoop fs -get hadoop删除文件命令 hadoop fs -rm hadoop创建目录命令 hadoop fs -mkdir hadoop查看存储信息 hadoop dfsadmin -report

查看全部

6 采集收起来源：HDFS使用
2015-12-27
moming_sky

实例程序讲的太简单了，根本没听懂

查看全部

6 采集收起来源：课程总结
2015-09-09
snow5hao

MapReduce处理数据过程主要分成2个阶段：Map阶段和Reduce阶段。首先执行Map阶段，再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现，但要符合MapReduce框架的约定。在正式执行Map前，需要将输入数据进行”分片”。所谓分片，就是将输入数据切分为大小相等的数据块，每一块作为单个Map Worker的输入被处理，以便于多个Map Worker同时工作。分片完毕后，多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后，进行计算处理，最终输出给Reduce。Map Worker在输出数据时，需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系，具有相同Key的数据会被发送给同一个Reduce Worker，单个Reduce Worker有可能会接收到多个Key值的数据。在进入Reduce阶段之前，MapReduce框架会对数据按照Key值排序，使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner)，框架会调用Combiner，将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后，一个Key的多条数据经过Reduce的作用后，将变成了一个值。

查看全部

6 采集收起来源：MapReduce的原理
2016-06-24
无知的1234

重复了三分钟，没搞清分区到底是在什么时候进行的，是map分片的时候么，还是map分片存储之后

查看全部

5 采集收起来源：利用MapReduce进行排序（下）
2015-07-19
lrghktk

HDFS使用：它提供了 shell 接口，可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告

查看全部

5 采集收起来源：HDFS使用
2015-06-18
一只忧伤的猪猪猪

定义：开源的分布式存储＋分布式计算平台；内容：包含HDFS和MapReduce两部分，HDFS是分布式文件系统存储海量数据，MapReduce并行处理框架，实现任务分解和调度；用途：搭建大型数据仓库，PB级数据存储、处理、分析及统计，用于搜索引擎、BI、日志分析及数据挖掘等；优势：高扩展、低成本、成熟的生态圈

查看全部

4 采集收起来源：Hadoop的功能与优势
2016-02-06
追梦的babydx

HDFS读取文件的流程：（1）客户端向namenode发起独立请求，把文件名，路径告诉namenode；（2）namenode查询元数据，并把数据库返回客户端；（3）此时客户端就明白文件包含哪些块，这些块在哪些datanode中可以找到； HDFS写文件流程：（1）客户端把文件拆分成固定大小64M的块，并通知namenode；（2）namenode找到可用的datanode返回给客户端；（3）客户端根据返回的datanode，对块进行写入（4）通过流水线管道流水线复制（5）更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态。

查看全部

4 采集收起来源：HDFS中文件的读写操作
2016-02-04
行尸荒野

hadoop生态系统： 1.hdfs分布式存储系统 2.mapreduce 大数据编程模型 3.相关开源工具：（1）hive：将sql语句转化为hadoop任务（2）HBASE：存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展，它提供数据的随机读写和实时访问，实现对表数据的读写功能（3）zookeeper:监控Hadoop集群里的每个节点的状态，管理整个集群的配置，维护数据节点之间的一致性

查看全部

4 采集收起来源：Hadoop生态系统及版本
2015-12-10
SaintW

mkdir examples //生成一个examples目录 cd examples //进入examples文件路径 mkdir word_count //生成word_count目录 cd word_count //进入word_count目录 mkdir input //用于存放提交的作业 mkdir word_count_class //用于存放编译好的类 vim WordCount.java // 编写好java程序后保存，资料下载里面有 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java //因为编译WordCount.java过程需要引用hadoop封装类，所以需要引用 jar -cvf wordcount.jar *.class //将当前目录下的所有class都打包进wordcount.jar文件中 cd .. //返回上级word_count目录 cd input vim file1 //编辑好file1 之后保存，file1里面为需要提交的作业 vim file2 // 类似 cd .. //返回到word_count目录 hadoop fs -mkdir input_wordcount //创建一个hadoop 目录，用于存放提交的作业 hadoop fs -put input/* input_wordcount //将本地的作业提交到input_wordcount目录中 hadoop fs -ls input_wordcount //查看文件是否在该目录下 hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount //提交jvm运行的jar，同时提交运行的主类，input..和out..分别用于保存提交的作业和运行结束的作业 .... .... .... 等待程序运行， ok

查看全部

4 采集收起来源：WordCount单词计数（下）
2015-12-08
Boyer_Pythoner

三大革命技术：Mapreduce, BigTable, GFS 分布式计算用软件高可靠性提升硬件容错 Mapreduce分布式技术，无须控制节点同步和数据交换

查看全部

4 采集收起来源：Hadoop的前世今生
2015-06-09
1爱已成殇

hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input hadoop获取文件命令 hadoop fs -get hadoop删除文件命令 hadoop fs -rm hadoop创建目录命令 hadoop fs -mkdir hadoop 格式化操作 : hadoop namenode -formet hadoop查看存储信息 hadoop dfsadmin -report 

查看全部

3 采集收起来源：HDFS使用
2018-03-22
gvhjzdxv

hdfs-site.xml配置 <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property>

查看全部

3 采集收起来源：Hadoop安装-配置hadoop
2018-03-22
jin_123

配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个文件 hadoop-env.sh：配置jdk路径 core-site.xml： <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://imooc:9000</value> </property> hdfs-site.xml <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> mapred-site.xml <property> <name>mapred.job.tracker</name> <value>imooc:9001</value> </property>

查看全部

3 采集收起来源：Hadoop安装-配置hadoop
2018-03-22
朵朵朵 00:11

佛真的说过吗？

查看全部

3 采集收起来源：Hadoop的前世今生
2015-06-09