为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
学习人数
综合评分9.17
210人评价 查看评价
9.4 内容实用
9.1 简洁易懂
9.0 逻辑清晰
  • Hadoop配置 1,下载Hadoop安装包 地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz $ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2、解压到指定目录下; $ mv 文件 /opt 解压 $ tar -zxvf hadoop-1.2.1.tar.gz 3、配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个文件; 进入conf下 $ cd conf/ $ vim hadoop-env.sh 打开 配置Javahome 配置<configuration> 4、编辑/etc/profile文件,配置hadoop相关的环境变量; 5、第一次使用hadoop先进行格式化: $ hadoop namenode -format; 6、启动hadoop:start-all.sh; 7、检查进程:jps;
    查看全部
  • hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input hadoop获取文件命令 hadoop fs -get hadoop删除文件命令 hadoop fs -rm hadoop创建目录命令 hadoop fs -mkdir hadoop查看存储信息 hadoop dfsadmin -report
    查看全部
    6 采集 收起 来源:HDFS使用

    2015-12-27

  • 实例程序讲的太简单了,根本没听懂
    查看全部
    6 采集 收起 来源:课程总结

    2015-09-09

  • MapReduce处理数据过程主要分成2个阶段:Map阶段和Reduce阶段。首先执行Map阶段,再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现,但要符合MapReduce框架的约定。 在正式执行Map前,需要将输入数据进行”分片”。所谓分片,就是将输入数据切分为大小相等的数据块,每一块作为单个Map Worker的输入被处理,以便于多个Map Worker同时工作。 分片完毕后,多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后,进行计算处理,最终输出给Reduce。Map Worker在输出数据时,需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系,具有相同Key的数据会被发送给同一个Reduce Worker,单个Reduce Worker有可能会接收到多个Key值的数据。 在进入Reduce阶段之前,MapReduce框架会对数据按照Key值排序,使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner),框架会调用Combiner,将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。 接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后,一个Key的多条数据经过Reduce的作用后,将变成了一个值。
    查看全部
    6 采集 收起 来源:MapReduce的原理

    2016-06-24

  • 重复了三分钟,没搞清分区到底是在什么时候进行的,是map分片的时候么,还是map分片存储之后
    查看全部
  • HDFS使用:它提供了 shell 接口,可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告
    查看全部
    5 采集 收起 来源:HDFS使用

    2015-06-18

  • 定义:开源的分布式存储+分布式计算平台; 内容:包含HDFS和MapReduce两部分,HDFS是分布式文件系统存储海量数据,MapReduce并行处理框架,实现任务分解和调度; 用途:搭建大型数据仓库,PB级数据存储、处理、分析及统计,用于搜索引擎、BI、日志分析及数据挖掘等; 优势:高扩展、低成本、成熟的生态圈
    查看全部
  • HDFS读取文件的流程:(1)客户端向namenode发起独立请求,把文件名,路径告诉namenode;(2)namenode查询元数据,并把数据库返回客户端;(3)此时客户端就明白文件包含哪些块,这些块在哪些datanode中可以找到; HDFS写文件流程:(1)客户端把文件拆分成固定大小64M的块,并通知namenode;(2)namenode找到可用的datanode返回给客户端;(3)客户端根据返回的datanode,对块进行写入(4)通过流水线管道流水线复制(5)更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态。
    查看全部
  • hadoop生态系统: 1.hdfs分布式存储系统 2.mapreduce 大数据编程模型 3.相关开源工具: (1)hive:将sql语句转化为hadoop任务 (2)HBASE:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 (3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
    查看全部
  • mkdir examples //生成一个examples目录 cd examples //进入examples文件路径 mkdir word_count //生成word_count目录 cd word_count //进入word_count目录 mkdir input //用于存放提交的作业 mkdir word_count_class //用于存放编译好的类 vim WordCount.java // 编写好java程序后保存,资料下载里面有 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java //因为编译WordCount.java过程需要引用hadoop封装类,所以需要引用 jar -cvf wordcount.jar *.class //将当前目录下的所有class都打包进wordcount.jar文件中 cd .. //返回上级word_count目录 cd input vim file1 //编辑好file1 之后保存 ,file1里面为需要提交的作业 vim file2 // 类似 cd .. //返回到word_count目录 hadoop fs -mkdir input_wordcount //创建一个hadoop 目录,用于存放提交的作业 hadoop fs -put input/* input_wordcount //将本地的作业提交到input_wordcount目录中 hadoop fs -ls input_wordcount //查看文件是否在该目录下 hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount //提交jvm运行的jar,同时提交运行的主类,input..和out..分别用于保存提交的作业和运行结束的作业 .... .... .... 等待程序运行, ok
    查看全部
  • 三大革命技术:Mapreduce, BigTable, GFS 分布式计算用软件高可靠性提升硬件容错 Mapreduce分布式技术,无须控制节点同步和数据交换
    查看全部
  • hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input<br> hadoop获取文件命令 hadoop fs -get<br> hadoop删除文件命令 hadoop fs -rm <br> hadoop创建目录命令 hadoop fs -mkdir<br> hadoop 格式化操作 : hadoop namenode -formet hadoop查看存储信息 hadoop dfsadmin -report<br>
    查看全部
    3 采集 收起 来源:HDFS使用

    2018-03-22

  • hdfs-site.xml配置 <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property>
    查看全部
  • 配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个文件 hadoop-env.sh:配置jdk路径 core-site.xml: <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://imooc:9000</value> </property> hdfs-site.xml <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> mapred-site.xml <property> <name>mapred.job.tracker</name> <value>imooc:9001</value> </property>
    查看全部
  • 佛真的说过吗?
    查看全部
首页上一页1234567下一页尾页

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!