首页手记 Hive查询HBase调用MapReduce性能优化

Hive查询HBase调用MapReduce性能优化

标签：

Hbase

折腾了很久，被领导天天督促&指点，算是有个最基本的性能优化。

1. 背景介绍：

Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时，会调用MapReduce进行处理。本文旨在查询性能方面的优化，算是对工作中的一点记录。

优化主要分为两个方面：

HBase预分区以及hive–hbase-storage-handler的实现。
HBase参数调优。

2. 一些基本知识：

对Map过程的基本理解：Map是将原始数据拆分成split，根据split启动Mapper。
Hadoop有两套API，一套是org.apache.hadoop.mapred，一套是org.apache.hadoop.mapreduce。前者是旧API，特点是底层基本类是接口，实现类需implements interface，而后者是新API，底层基本类是抽象类，实现类需extends abstractClass。
hive的hive-storage-handler，使用的是旧mapred API。在handler中，需指定实现org.apache.hadoop.mapred.InputFormat 接口。

3. org.apache.hadoop.mapred.InputFormat详解

简单来说，InputFormat 主要用于描述输入数据的格式，提供了以下两个功能：

数据切分，按照某个策略将输入数据且分成若干个 split，以便确定 Map Task 的个数即 Mapper 的个数，在 MapReduce 框架中，一个 split 就意味着需要一个 Map Task;
为 Mapper 提供输入数据，即给定一个 split(使用其中的 RecordReader 对象)将之解析为一个个的 key/value 键值对。

该类接口定义如下：

public interface InputFormat<K,V>{    public InputSplit[] getSplits(JobConf job,int numSplits) throws IOException; 
    public RecordReader<K,V> getRecordReader(InputSplit split,JobConf job,Reporter reporter) throws IOException; 
}

其中，getSplit() 方法主要用于切分数据，每一份数据由，split 只是在逻辑上对数据分片，并不会在磁盘上将数据切分成 split 物理分片，实际上数据在 HDFS 上还是以 block 为基本单位来存储数据的。InputSplit 只记录了 Mapper 要处理的数据的元数据信息，如起始位置、长度和所在的节点。

4. HBase预分区

在HBase Java API中，创建HBase table是可以指定TableDescriptor的。该TableDescriptor类似于一种预分区策略。默认地，如果没有指定TableDescriptor来创建一张表时，只有一个region,正处于混沌时期，start-end key无边界,可谓海纳百川。什么样的rowKey都可以接受，然而，当数据越来越多，region的size越来越大时，大到一定的阀值，hbase认为再往这个region里塞数据已经不合适了，就会找到一个midKey将region一分为二，成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界，左为N无下界，右为M无上界。< midKey则为阴被塞到N区，> midKey则会被塞到M区。

TableDescriptor是一个byte[][]数组，其中每一个byte[]相当于split key，如指定了63个split key，就会分成64个分区。预分区是不会被HBase Compact所合并的。

由于HBase是字典排序，所以如果要将表数据分散到预分区中，需要在rowkey指定一个prefix并保证尽量分散。常见的散列设计如hash或mod都是可以的。

5. 基于预分区的并发mapper设计

在HBase中，不同的RegionServer管理着不同的Region，我们希望能并发scan所有的region以达到并行化。由于mapper本身是并行的，所以只需在split上做文章，也就是改写getSplits方法。具体做法是：

实现InputSplit接口，编写一个Split对象类，在默认hive-hbase-handler中已有实现。
拿到table的region list。
遍历list，获取每一个region的startKey和endKey。
将二者写入继承的Split对象类。有多少region就有多少split，并且在Split对象类的readFields()方法中根据startKey和endKey读取，write方法类似。

这样recordReader就会读取设置的每一个split。具体代码不做赘述，只提供思路。

6. 参数调优

由于hive查询hbase的handler，底层依旧是用HBase的scan实现的，所以可以对HBase client端进行参数调优。比较有用的如：

hbase.scan.cache，可以在集群管理中配置，也可以由client端的scan自行设置：scan.setCaching()，默认是1，设置大些可为一次scan拿回更多数据，减少网络I/O。

另有server段参数如：
hbase.ipc.server.read.threadpool.size。默认值 10，Reader 网络 IO 个数，reader 的个数决定了从网络 io 里读取数据的速度也就是网络I/O。

同样也可以设置server端cache大小（表级别），减少磁盘I/O。

经测试，实现上述优化，在我所能访问到的集群里，count 一千万数据，能够从最初的5分钟降至最低48秒。

作者：orisonchan
链接：https://www.jianshu.com/p/cbcc20342ce0

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕虎7371278

手记
篇

粉丝

202

获赞与收藏

877

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32258 360

网络编程入门教程

20个小节 13303 250

Pandas 入门教程

25个小节 19926 373

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空