为了账号安全,请及时绑定邮箱和手机立即绑定

Hadoop的I/O操作

标签:
Hadoop

原文地址: https://itweknow.cn/detail?id=58 ,欢迎大家访问。

HDFS的数据完整性

HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。我们在写入数据的时候最后一个处理的datanode会去验证校验和,如果错误的话会抛出IOException的子异常。且每个datanode都会记录每次验证校验和的日志,这样可以方便我们排查错误发生的时间。datanode还会主动的定期验证存储在该datanode上所有数据的校验和,当发现错误时会向namenode汇报并进行数据修复。

压缩

codec

我们通过实现CompressionCodec接口来描述我们压缩-解压缩算法,CodepressionCodec里有两个方法,分别是createOutputStream(OutputStream out)和createInputStream(InputStream in),前者是对写入输出数据流的数据进行压缩,而后者则是对输入数据流的数据进行解压缩。一个CodepressionCodec的实现对应着一种压缩-解压缩算法。

压缩格式后缀对应的CompressionCodec实现是否可切分
DEFALATE.deflateorg.apache.hadoop.io.compress.DefaultCodec
gzip.gzorg.apache.hadoop.io.compress.GzipCodec
bzip2.bz2org.apache.hadoop.io.compress.BZip2Codec
LZ4.lz4org.apache.hadoop.io.compress.Lz4Codec
Snappy.snappyorg.apache.hadoop.io.compress.SnappyCodec

通过CompressionCodecFactory推断CompressionCodec

CompressionCodecFactory.getCodec()方法可以根据文件的扩展名来推断要使用那种CompressionCodec的实现。

@Testpublic void fileDecompressor() throws IOException {
    FSDataInputStream in = null;    try {
        CompressionCodecFactory factory = new CompressionCodecFactory(configuration);
        Path inPath = new Path("/test/codec/test.txt.gz");
        CompressionCodec codec = factory.getCodec(inPath);
        in = fs.open(new Path("/test/codec/test.txt.gz"));
        IOUtils.copyBytes(codec.createInputStream(in), System.out, 4096);
    } finally {
        in.close();
    }
}

代码中包含的某些变量的定义我没有粘过来,如果需要测试的话可以戳这里查看完整的代码。

压缩和输入分片

DEFALATE、gzip、bzip2、LZO、LZ4、Snappy几种压缩格式中,只有bzip2是支持切分的。对于大文件来说最好不要使用不支持切分整个文件的压缩格式,因为这么做会失去数据的本地特性,大量的网络传输进而造成MapReduce应用效率低下。

在MapReduce中使用压缩

如果MapReduce程序的输入文件是压缩的,那么MapReduce程序会使用上面通过CompressionCodecFactory推断CompressionCodec的方式推断出对应的codec,然后再读取文件的时候自动解压缩文件。
如果我们想压缩MapReduce作业的输入数据的话,则还需要进行相应的配置,具体如何配置我会在后面的文章中进行说明,期待吧。

序列化

序列化指将结构化的对象转化为字节流以便在网络上传输或写到磁盘存储的过程。与之对应的反序列化就是将字节流转换成结构化对象的过程。

Writeable接口

Hadoop使用的是自己的序列化格式Writable,紧凑且速度快,但是对Java之外的其他语言并不是很友好。Hadoop本身提供了很多Writable类,Java的基本类型都有被封装,正对String的Text,BytesWritable,NullWritable,ArrayWritable等等。

  • 实现定制的Writeable
    这里我们定制一个UserWriteable对象,包含了name和address两个属性。

public class UserWriteable implements Writable {    private String name;    private String address;    public String getName() {        return name;
    }    public UserWriteable setName(String name) {        this.name = name;        return this;
    }    public String getAddress() {        return address;
    }    public UserWriteable setAddress(String address) {        this.address = address;        return this;
    }    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeChars(name);
        dataOutput.writeChars(address);
    }    public void readFields(DataInput dataInput) throws IOException {        // 先进先出原则,与write方法对应
        name = dataInput.readLine();
        address = dataInput.readLine();
    }
}
  • write

    • 将对象的属性写入二进制流(DataOutput)。

  • readFields

    • 从二进制流(DataInput)中还原对象属性。

  • 为什么不用Java的序列化机制

    • 该机制与语言密切相关。

    • 太复杂。



作者:名字想好没
链接:https://www.jianshu.com/p/55d1a4ae1d61


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消