为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
学习人数
综合评分9.17
211人评价 查看评价
9.4 内容实用
9.1 简洁易懂
9.0 逻辑清晰
  • Mapreduce原理:分而治之,一个大任务分成多个子任务(map),并行执行之后,合并结果(reduce)。 eg:做统计的时候,把统计的文件拆分,然后分别统计每一个数据出现的次数,然后合并拆分项,就可以统计每一个数据出现的总次数。 MapReduce处理数据过程主要分成2个阶段:Map阶段和Reduce阶段。首先执行Map阶段,再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现,但要符合MapReduce框架的约定。 在正式执行Map前,需要将输入数据进行”分片”。所谓分片,就是将输入数据切分为大小相等的数据块,每一块作为单个Map Worker的输入被处理,以便于多个Map Worker同时工作。 分片完毕后,多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后,进行计算处理,最终输出给Reduce。Map Worker在输出数据时,需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系,具有相同Key的数据会被发送给同一个Reduce Worker,单个Reduce Worker有可能会接收到多个Key值的数据。 在进入Reduce阶段之前,MapReduce框架会对数据按照Key值排序,使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner),框架会调用Combiner,将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。 接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后,一个Key的多条数据经过Reduce的作用后,将变成了一个值。
    查看全部
    2 采集 收起 来源:MapReduce的原理

    2017-12-16

  • http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
    查看全部
  • hive(sql语句转换工具) habse(结构型数据,随机写入和实时读取) zookeeper(监控个节点使用、配置) ---------------------------- zookeeper监控hadoop每个节点的状态,管理集群配置,维护节点间数据的一致性。 ------------------------------- habase存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展。habase提供数据的随机读写和实时访问,实现对表数据的读写功能。 -------------------------------------------------- hdfs mapreduse hive:将SQL语句转化为hadoop任务执行 hbase:放弃事务特性,追求更高的扩展 随机读写,实时访问 zookeeper:监控hadoop集群每个结点状态,管理整个集群配置,维护节点端一致性
    查看全部
  • 数据块副本:每个数据块3个副本,分布在2机架3节点上(容错性) 心跳检测:DataNode定期向NameNode发心跳消息,刷新存在感!! 二级NameNode:NameNdoe定期同步元数据映像文件到二级NameNode(secondryNameNode),一旦故障,备胎转正,成正宫娘娘!
    查看全部
    2 采集 收起 来源:数据管理策略

    2017-02-25

  • 一脸懵逼
    查看全部
  • (1) start -all.sh 启动hadoop (2)rz把某某.java类放到根目录下/opt/根目录下边或者根目录下任意文件 cd / mkdir project_hadoop/ rz 类路径添加 (3)cd 新创建的文件,创建file1和file2 mkdir input vi file1 vi file2 ls project_hadoop (4)创建文件 hadoop fs -mkdir input_wordcount (5)创建目录:hadoop fs -mkdir input 查看文件: hadoop fs -ls hadoop fs -ls input_wordcount (6)把file1和file2文件放到input_wordcount 提交输入文件给hadoop hadoop fs -put 文件路径 提交后的路径 例:hadoop fs -put input/* input_wordcount/ (7)查看文件 hadoop fs -ls input_wordcount fs -cat input_wordcount/file1 fs -cat input_wordcount/file2 (8)编译java文件 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d 编译后地址 编译文件 (9)打包指令 jar -cvf 打包后文件名.jar 某某.class jar -cvf wordcount.jar *.class (10)提交jar给hadoop执行 hadoop jar jar包路径 执行的主函数名(主类名,main方法所在类名) 输入目录名 输出目录名 例:hadoop jar project_hadoop/wordcount.jar WordCount input_wordcount output_wordcount (11)查看通过算法计算出单词个数的结果 fs -cat output_wordcount/part-r-00000
    查看全部
  • HDFS特点: 1、数据冗余,软件方式保证低成本硬件容错。 2、流式读写(一次写入,多次读取,不可修改)。 3、适合存储大文件(否则namenode消耗高,头大身小)。 优点:存储块大,吞吐量高,为存储大文件设计; 缺点:延迟高,不适合交互式访问,不支持多用户同时操作一个块。
    查看全部
    2 采集 收起 来源:HDFS特点

    2016-07-31

  • hadoop安装步骤: 1、安装JDK:apt-get install openjdk-7-jdk; 2、设置环境变量:JAVA_HOME、JRE_HOME、CLASSPATH、PATH 3、下载hadoop安装包并解压到指定目录下; 4、设置环境变量:HADOOP_HOME、PATH 5、修改相关配置文件$HADOOP_HOME/conf: 1)修改hadoop-env.sh,设置JAVA_HOME; 2)修改core-site.xml,设置hadoop.tmp.dir、dfs.name.dir、fs.default.name; 3)修改mapred-site.xml,设置mapred.job.tracker; 4)修改hdfs-site.xml,设置dfs.data.dir; 6、格式化:hadoop namenode -format; 7、启动:start-all.sh 8、检查:jps
    查看全部
    2 采集 收起 来源:安装小结

    2016-07-27

  • hadoop生态系统: 1.hdfs 2.mapreduce 3.相关开源工具: (1)hive:将sql语句转化为hadoop任务 (2)HBASE:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 (3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
    查看全部
  • HDFS使用:它提供了 shell 接口,可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告
    查看全部
    2 采集 收起 来源:HDFS使用

    2016-06-12

  • 见鬼,Sort.java中 String line = value.toString();会读取到空字符串,检查了一遍file根本没有这个,所以只能添加下面代码防止空字符串的读取。 if(line!="" && line.length() > 0){ data.set(Integer.parseInt(line)); }
    查看全部
  • hadoop笔记:
    查看全部
  • wget http://mirror.bit.edu.cn/apache/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
    查看全部
  • 存储块大,吞吐量高,为存储大文件设计; 延迟高,不适合交互式访问,不支持多用户同时操作一个块。
    查看全部
    1 采集 收起 来源:HDFS特点

    2016-03-03

  • HDFS特点:<br> 1、数据冗余,软件方式保证低成本硬件容错。<br> 2、流式读写(一次写入,多次读取,不可修改)。<br> 3、适合存储大文件(否则namenode消耗高,头大身小)。
    查看全部
    1 采集 收起 来源:HDFS特点

    2018-03-22

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!