认识Hadoop--基础篇_学习笔记

首页免费课认识Hadoop--基础篇笔记

认识Hadoop--基础篇

最热最新

qq_今夕何年_1

下载软件地址： wget https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
配置hadoop文件：
1、hadoop-env.sh
配置java 环境变量的地址
2、 core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
</configuration>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://imooc:9000</value>
</property>

查看全部

4 采集收起来源：Hadoop安装-配置hadoop
2018-10-15
慕侠1065262

https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

查看全部

3 采集收起来源：Hadoop安装-配置hadoop
2018-06-21
木子车

HDFS特点： 1、数据冗余，硬件容错（一式三份来保证） 2、流式数据访问：写一次，读多次，一旦写入无法修改，只能通过写入到新的块删除旧文件 3、存储大文件（特适合，因为小文件多，势必加重NameNode的负担） HDFS适用性及局限性： 1、适合数据批量读写，吞吐量高 2、不适合交互式应用、低延迟很难满足 3、适合一次写入多次读取、顺序读写 4、不支持多用户并发写相同文件

查看全部

3 采集收起来源：HDFS特点
2017-03-06
virvle

常用Hadoop的shell命令： #hadoop fs -format #格式化操作 #hadoop fs -ls / #展示文件 #hadoop fs -cat input/hsdf-site.xml #查看Hadoop里面的指定文件 #hadoop fs -mkdir input #未指明目录，表示在Hadoop的文件系统下的默认目录/user/root下新建 #hadoop fs -put hdsf-site.xml input/ #上传文件到Hadoop #hadoop fs -get hdfs-site.xml hdfs-site2.xml #从Hadoop下载文件 #hadoop dfsadmin -report #查看HADF使用情况（所有信息）

查看全部

3 采集收起来源：HDFS使用
2017-02-07
virvle

下载hadoop： wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

查看全部

3 采集收起来源：Hadoop安装-配置hadoop
2017-01-18
1爱已成殇 01:54

datanode中一份数据会有3个副本，分别存在于不同的两个机架中；secondarynamenode是二级namenode；datanode和namenode会有不定期的心跳检测。

查看全部

2 采集收起来源：数据管理策略
2016-02-29
追梦的babydx

Hadoop是解决大数据的分布式集成架构。当数据达到一定规模时，单机的存储和分析就变得非常困难，存储量和效率都无法达到用户的需求。所以，为了解决大数据的存储和处理，Google提出了三大技术MapReduce，BigTable，GFS，相比于Google之前的解决方案，它有如下优势（1）降低成本，能用PC机就不用大型机和高端存储；（2）因为用的是PC机，所以经常发生硬件错误，所以通过软件来保证高可靠性；（3）简化了并行分布式计算。Hadoop是模仿Google三大技术的开源实现。

查看全部

2 采集收起来源：Hadoop的前世今生
2016-02-04
篱笆外的小猫

课程学习建议： 1.结合书本，知识点更加系统全面对应的书本：hadoop技术详解、hadoop权威指南 2.实践经验很重要，边听课边实践。课程预备知识： linux常用命令 java编程基础

查看全部

2 采集收起来源：Hadoop大数据平台架构与实践课程简介
2015-07-28
/ty王/db 00:47

imN

查看全部

2 采集收起来源：Hadoop大数据平台架构与实践课程简介
2015-06-14
墨西哥鸡味卷

安装hadoop: 1、准备liunx环境； 2、安装JDK； 3、配置hadoop；新搭建方式：使用云主机进行配置

查看全部

2 采集收起来源：Hadoop安装-获取linux操作系统
2015-06-11
墨西哥鸡味卷

大数据存储和处理技术原理

查看全部

2 采集收起来源：Hadoop大数据平台架构与实践课程简介
2015-06-10
emotion1

mkdir examples //生成一个examples目录
cd examples //进入examples文件路径
mkdir word_count //生成word_count目录
cd word_count //进入word_count目录
mkdir input //用于存放提交的作业
mkdir word_count_class //用于存放编译好的类
vim WordCount.java // 编写好java程序后保存，资料下载里面有

javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java //因为编译WordCount.java过程需要引用hadoop封装类，所以需要引用

jar -cvf wordcount.jar *.class //将当前目录下的所有class都打包进wordcount.jar文件中

cd .. //返回上级word_count目录
cd input
vim file1 //编辑好file1 之后保存，file1里面为需要提交的作业
vim file2 // 类似
cd .. //返回到word_count目录
hadoop fs -mkdir input_wordcount //创建一个hadoop 目录，用于存放提交的作业
hadoop fs -put input/* input_wordcount //将本地的作业提交到input_wordcount目录中
hadoop fs -ls input_wordcount //查看文件是否在该目录下
hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount //提交jvm运行的jar，同时提交运行的主类，input..和out..分别用于保存提交的作业和运行结束的作业

....
....
....
等待程序运行， ok

查看全部

2 采集收起来源：WordCount单词计数（下）
2019-03-15
Agtmwgam

安装后配置hadoop文件
一、设置java目录和hadoop目录：
vi /etc/profile
JAVA_HOME=/etc/usr/java/jdk-1.8.1
JAR_HOME=$JAVA_HOME/jre
HADOOP_HOME=/etc/usr/hadoop-1.2.1
PATH=$JAVA_HOME/bin:$JAR_HOME/bin:$HADOOP_HOME/bin:$PAHT
二、修改四个配置文件
1、core-site.xml（haddop.temp.dir、dfs.name.dir、fs.default.name）
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://imooc:9000</value> </property> </configuration>
2、修改mapred-site.xml（mapred.job.tracker）
<configuration> <property> <name>mapred.job.tracker</name> <value>imooc:9001</value> </property> </configuration>
3、修改hsfs-site.xml，设置dfs.data.dir
<property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property>
4、修改hadoop的环境变量文件hadoop-env.sh
JAVA_HOME=/etc/usr/java/jkd-1.8.1
三、对hadoop进行格式化已经启动：
hadoop namenode -format
start-all.sh
jps=》查看hadoop是否安装成功

查看全部

2 采集收起来源：安装小结
2019-02-21
_少華嚴巧語_

HDFS 分布式文件系统
MapReduce 并行处理矿建
HIVE 将SQL语句转化为Hadoop任务，降低使用门槛
HBASE 存储结构化数据的分布式数据库
（放弃了事务特性最求更高的扩展）
zookeeper 监控Hadoop集群的状态、管理配置、维护节点一次性

查看全部

2 采集收起来源：Hadoop生态系统及版本
2019-01-14
淡入淡出0
HDFS的文件被分成块进行存储，HDFS块默认大小是64MB，快是整个文件存储处理的逻辑单元
HDFS中有两类节点NameNode和DataNode
namenode是管理节点，存放文件元数据，元数据包含两个部分
1. 文件与数据快的映射表
2. 数据块与数据节点的映射表
  namenode是唯一的管理节点，里面存放大量元数据，客户进行访问请求，首先会到namenode查看元数据，这个文件放在哪些节点上面然后从这些节点拿数据块，然后组装成想要的文件
3. DateNode是HDFS的工作节点，存放数据块
查看全部

2 采集收起来源：HDFS基本概念
2018-05-26