Hadoop基础及演练_技术问答

首页免费课 Hadoop基础及演练问答

Hadoop基础及演练

                
                叁金
            JAVA开发工程师

                    查看讲师更多课程 
                    叁金讲师的其他课程
                
玩转热门框架 用企业级思维 开发通用够硬的大数据平台
实战·初级·485

                                                                                                                                    ￥448.00
                                            
多层次构建企业级大数据平台， 成就全能型大数据开发
实战·高级·153

                                                                                                                                    ￥599.00
                                            
ChatGPT入门实战课 AI提效大数据开发平台建设
实战·初级·260

                                                                                                                                    ￥168.00
                                            
Calcite数据管理与SQL优化实战
初级·1310
免费课程
                                
Presto实战与演练
中级·3897
免费课程
                                
                难度初级
            
                时长 1小时 6分
            
                学习人数
            
综合评分9.30
                            51人评价
                        查看评价
                                9.4
                                内容实用
                            
                                9.1
                                简洁易懂
                            
                                9.4
                                逻辑清晰

全部评论问答未解决精华

丞旭猿

影响MapReduce的主要因素有以下几个：
硬件（或者资源）因素，如CPU时钟、磁盘I/O、网络带宽和内存大小。
底层存储系统。
输入数据、分拣（shuffle）数据以及输出数据的大小，这与作业的运行时间紧密相关。
作业算法（或者程序），如map、reduce、partition、combine和compress。有些算法很难在MapReduce中概念化，或者在MapReduce中效率可能会降低。

9 4-1 Hadoop总结及延伸思考

2018-07-09

丞旭猿

看来得自学python的知识了

3 3-2 MapReduce实战

2018-07-09

丞旭猿

python没有接触过

0 2-4 Python程序操作HDFS

2018-07-09

丞旭猿

问题 namenode挂掉怎么办？
重启namenode1。集群短暂正常之后两个namenode都挂掉，日志显示内存溢出。进一步重启整个集群，短暂正常后namenode再次挂掉。
此时，修改hadoop_heapsize参数为4G，并调小队列3所允许的最大队列数为4，重新修改hadoop_heapsize参数，重启集群正常

1 2-1 HDFS概念及优缺点

2018-07-08

关于写数据

最赞回答 / 丞旭猿

因为namenode需要及时更新存储信息，方便记录存储各个datanode存储大小信息

2 回答 1131 浏览 2-2 HDFS写流程和读流程

2018-07-08

qq_戒烟人_03473214

非常的好啊

0 1-2 课程简介及目标

2018-06-29

Hadoop2.8.4 上运行的时候卡住了

讲师回答 / 叁金

上面不是有个链接了看看有没有详细点的信息。

2 回答 1515 浏览 3-2 MapReduce实战

2018-06-28

白小明

感谢老师分享！！！

Apache Spark 是一款开源的、基于内存的、专为大规模数据处理而设计的分布式计算框架，可作为 MapReduce 的替代方案，同时也很好地兼容其他大数据组件。

Spark 仅仅是一个分布式计算框架，专注于数据的计算，类似 MapReduce、Storm、Flink。Spark 不包含存储、调度等功能，而数据的存储在生产环境中往往还是由 Hadoop HDFS 承担，调度也是采用“Spark on YARN”的方式。

Spark 抽象出一个非常重要的概念：RDD（Resilient Distributed Datasets，弹性分布式数据集）

5 4-4 Spark简介

2018-06-11

白小明

老师有篇手记讲了这个的：
我们为什么需要HBase？：https://www.imooc.com/article/26090

2 4-3 HBase简介

2018-06-11

白小明

HBase（Hadoop Database）是一个分布式 NoSQL 列存储数据库。HBase 利用 HDFS 作为其文件存储系统，利用 Hadoop MapReduce 处理海量数据，还可以利用 Zookeeper 作为协同服务。HBase 源自 Google 在 2006 年发表的 BigTable 论文，它整体的架构与 BigTable 很类似。

3 4-3 HBase简介

2018-06-11

白小明

Hadoop 生态圈囊括了大数据处理的方方面面，其中的大多数组件都是开源免费的。组件都有自己的适用场景，如：HBase 做查询，Hive 做 SQL 离线批处理，Flume 做日志收集，Sqoop 做数据交换等。
学习目标：学习Hadoop生态圈的组成、核心组件，以及每个组件的应用场景，它们的优缺点和特性
建议学习路线：Hadoop 体系架构与环境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper（HA） -> Storm ----> Spark

10 4-2 Hadoop生态圈简介

2018-06-11

白小明

运用 HDFS shell 的方式对文件进行操作，HDFS shell 类似 Linux shell。

hadoop fs [generic options]与hdfs dfs [generic options]是一个命令

0 2-3 Shell命令操作HDFS

2018-06-11

白小明

文件写入：

1. Client向NameNode发起文件写入的请求
2. NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息
3. Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

文件读取：

1. Client向NameNode发起文件读取的请求。
2. NameNode返回文件存储的DataNode的信息。
3. Client读取文件信息。

2 2-2 HDFS写流程和读流程

2018-06-11

白小明

【百度百科定义】：大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

【通俗定义】：大数据是一个概念也是一门技术，它是以 Hadoop 和 Spark 为代表的大型软件平台，我们可以在这个软件平台上进行大规模数据的分析和处理。数据处理可分为两类：离线批处理（Hadoop 为代表）、实时流处理（Spark 为代表）。

3 1-1 大数据方向介绍

2018-06-11

HDFS系统若namenode挂了怎么办

已采纳回答 / 慕圣7118117

2.0版本是有两个namenode的，一个是主节点，一个是备用的，主节点挂了，就激活备用的

3 回答 4574 浏览 2-1 HDFS概念及优缺点

2018-06-02

数据块的大小设置成多大合适？

已采纳回答 / qq_兵刃_04412779

块的大小设置原则：最小化寻址开小。块越大寻址时间越短，传输一个由多个块的组成的文件取决于磁盘传输速率。如寻址时间约为10ms，传输速率为100MB/S，为了使寻址时间仅占传输时间的1%，块的大小设置约为100MB，默认大小是64MB，现在在实际身缠中都是128MB了，随着新一代磁盘去东区传输速率的提升，块的大小将会被设置的更大。注意：块的大小太大的话，一个map任务处理一个块，那任务数就变少了，作业运行速度也就变慢了。

1 回答 3711 浏览 2-1 HDFS概念及优缺点

2018-06-02

首页上一页 3 4 5 6 7 8 9 下一页尾页

开始学习

课程须知: 有Linux命令使用基础，有Python编程基础

老师告诉你能学到什么？: 大数据到底是个啥，大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码，参与3人拼团

热搜

最近搜索清空