-
hadoop生态系统: 1.hdfs分布式存储系统 2.mapreduce 大数据编程模型 3.相关开源工具: HIVE:把Sql语句转化成Hadoop任务去执行,降低了人们使用Hadoop的门槛; Habase:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能; zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性查看全部
-
Hadoop是一个开源的分布式存储和分布式计算平台。它由两部分组成:(1)HDFS:分布式文件系统,存储海量的数据;(2)MapReduce:并行处理框架,实现任务分解和调度。Hadoop可以用来做什么?其可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。用于搜索引擎、商业智能、日志分析以及数据挖掘等。它的优势(1)高扩展(2)低成本(3)成熟的生态圈查看全部
-
hadoop 查看文件命令 : hadoop fs -ls /查看全部
-
hadoop 格式化操作 : hadoop namenode -formet查看全部
-
hadoop一个模仿谷歌大数据的开源查看全部
-
租用云主机,申请公网IP,这个可都是付费的啊,成本怪大。查看全部
-
大数据技术查看全部
-
啥时候出hadoop高级版课程?查看全部
-
预备知识: 1、linux基本知识; 2、结合书本,提前丰富相关理论知识; 3、坚持。觉得难说明正在走上坡路查看全部
-
hadoop生态家族: 1.Hive:将sql语句转化成hadoop任务,降低使用hadoop的门槛 2.HBASE:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 3.zookeeper查看全部
-
Google大数据技术: 1.MapReduce:概念"Map(映射)"和"Reduce(归约)",它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 2.BigTable:是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库 3.GFS:是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。 hadoop革命性变 1.成本降低,能用PC机,不用大型机和高端存储 2.软件容错硬件故障视为常态,通过软件保证可靠性 3.简化并行分布式计算,无须控制节点同步和数据交换查看全部
-
hadoop技术指南和技术详解两本书查看全部
-
Hadoop的组成查看全部
-
在LINUX上安装JDK以及配置环境变量,下载hadoop 并修改配置文件查看全部
-
Hadoop = HDFS(分布式存储) + MapReduce(分布式计算) 优势: 1.高拓展;2.低成本;3.成熟的生态圈查看全部
举报
0/150
提交
取消