为了账号安全,请及时绑定邮箱和手机立即绑定

如何提高spark批量读取HBase数据的性能

/ 猿问

如何提高spark批量读取HBase数据的性能

BIG阳 2018-10-08 16:08:38
查看完整描述

1 回答

?
largeQ

Configuration conf = HBaseConfiguration.create();
  String tableName = "testTable";
  Scan scan = new Scan();
  scan.setCaching(10000);
  scan.setCacheBlocks(false);
  conf.set(TableInputFormat.INPUT_TABLE, tableName);
  ClientProtos.Scan proto = ProtobufUtil.toScan(scan);
  String ScanToString = Base64.encodeBytes(proto.toByteArray());
  conf.set(TableInputFormat.SCAN, ScanToString);
  JavaPairRDD<ImmutableBytesWritable, Result> myRDD = sc
  .newAPIHadoopRDD(conf, TableInputFormat.class,
  ImmutableBytesWritable.class, Result.class);
  在Spark使用如上Hadoop提供的标准接口读取HBase表数据(全表读),读取5亿左右数据,要20M+,而同样的数据保存在Hive中,读取却只需要1M以内,性能差别非常大。
  转载,仅供参考。


查看完整回答
反对 回复 2018-10-25
  • 1 回答
  • 0 关注
  • 1524 浏览
我要回答

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信