-
HBase架构体系
查看全部 -
Hadoop2.X分布式安装配置
查看全部 -
HBase安装说明
JDK1.7以上
Hadoop-2.5.0以上
Zookeeper-3.4.5
查看全部 -
HBase架构体系
查看全部 -
HBase在Hadoop2.x生态系统中的定位
查看全部 -
查看全部
-
HBase的特点
1、容量大
HBase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性
2、面向列
HBase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。
3、多版本
HBase每一个列的数据存储有多个Version
4、稀疏性
为空的列并不占用存储空间,表可以设计的非常稀疏
5、扩展性
底层依赖于HDFS
6、高可靠性
WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失:Replication机制保证了在集群出现严重的问题时,数据不会发生丢失或损坏。而且HBase底层使用HDFS HDFS本身也有备份。
7、高性能
底层的LSM数据结构和Rowkey有序排列等结构上的独特设计,使得HBase具有非常高的写入性能。region切分、主键索引和缓存机制使得HBase在海量数据下具备一定的随机读取性能,该性能针对Rowkey的查询能够达到毫秒级别
查看全部 -
HBase在实际业务场景中的应用
1、交通
2、金融
3、电商
4、移动
查看全部 -
Hbase依赖于HDFS,Zookeep组件
查看全部 -
Hbase表与关系型数据库表结构的对比
查看全部 -
rowkey相当于表的行主键。timestamp是时间戳。Hbase是基于key-value形式的。所以在列簇内,每一列都有一个key和value。
列簇的注意事项:
1、一张表的列簇不会超过5个,超过5个会影响查询效率
2、每个列簇中的列数没有限制
3、列只有插入数据后才会存在,没插入数据不会占用磁盘空间
查看全部 -
在创建Hbase表的时候,不需要创建列,只需要创建对应的列簇即可。列簇内的列的数量是可以设置超过上百万个的,列的个数不需要一开始就设定,可以后续动态增加。但是列簇建议不要多余5个。每个列簇,相当于一个分类。
查看全部 -
Hadoop生态图
查看全部 -
选择合适的HBase版本:
官方版本:http://archive.apache.org/dist/hbase/
CDH版本:http://archive.cloudera.com/cdh5
查看全部 -
Hbase的特点
1、容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数量级都非常有弹性
2、面向列:Hbase是面向列的存储和权限控制、并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能够大大减少读取的数据量(关系型数据库是,先将列定义好,然后写数据,hbase的列是可以动态增加的)
3、多版本:Hbase每一个列的数据存储有多个version
4、稀疏性:为空的列不占用存储空间、表可以设计的非常稀疏
5、扩展性:底层依赖于HDFS(分布式文件系统)
6、高可靠性: WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失:Replication机制保证了在集群出现严重的问题时,数据不会发生丢失或损坏.而且HBase底层使用HDFS HDFS本身也有备份.
7、高性能:底层的LSM数据结构和Rowkey有序排列等架构上的独特设计,使得HBase具有非常高的写入性能.region切分、主键索引和缓存机制使得HBase在海量数据下具备一定的随机读取性能,改性能针对Rowkey的查询能够达到毫秒级别.
查看全部
举报