首页手记 Protoc Buffer 优化传输大小的一个细节

Protoc Buffer 优化传输大小的一个细节

标签：

Java 大数据

Protoc Buffer 是我们比较常用的序列化框架，Protocol Buffer 序列化后的占空间小，传输高效，可以在不同编程语言以及平台之间传输。今天这篇文章主要介绍 Protocol Buffer 使用 VarInt32 减少序列化后的数据大小。

VarInt32 编码

VarInt32 (vary int 32)，即：长度可变的 32 为整型类型。一般来说，int 类型的长度固定为 32 字节。但 VarInt32 类型的数据长度是不固定的，VarInt32 中每个字节的最高位有特殊的含义。如果最高位为 1 代表下一个字节也是该数字的一部分。因此，表示一个整型数字最少用 1 个字节，最多用 5 个字节表示。如果某个系统中大部分数字需要 >= 4 字节才能表示，那其实并不适合用 VarInt32 来编码。下面以一个例子解释 VarInt32 的编码方式：

以 129 为例，它的二进制为 1000 0001 。
由于每个字节最高位用于特殊标记，因此只能有 7 位存储数据。
第一个字节存储最后 7 位 （000 0001），但并没有存下所有的比特，因此最高位置位 1，剩下的部分用后续字节表示。所以，第一个字节为：1000 0001
第二个字节只存储一个比特位即可，因此最高位为 0 ，所以，第二个字节为：0000 0001
这样，我们就不必用 4 字节的整型存储 129 ，可以节省存储空间

在 Protoc buffer 中，每一个 ProtoBuf 对象都有一个方法 public void writeDelimitedTo(final OutputStream output)，该方法将 ProtoBuf 对象序列化后的长度以及序列化数据本身写入到输出流 output 中。多个对象调用该方法可以将序列化后的数据写入到同一个输出流。由于每次写入都有长度，所以反序列化时先解析长度，在读取对应长度的字节数据，即可解析出每个对象。该方法中对序列化后长度的编码便使用 VarInt32，因为一个 Protobuf 对象序列化后的长度不会太大，因此使用 VarInt32 编码能够有效的节省存储空间。接下来我们看下 Protoc Buffer 中如何实现 VarInt32 编码，跟进 writeDelimitedTo 方法，可以看到 VarInt32 编码的源码如下：

  /**
   * Encode and write a varint.  {@code value} is treated as
   * unsigned, so it won't be sign-extended if negative.   */
public void writeRawVarint32(int value) throws IOException {    
      while (true) {      
          if ((value & ~0x7F) == 0) {//代表只有低7位有值，因此只需1个字节即可完成编码        
          writeRawByte(value);        
          return;
      } else {
        /**
         * 代表编码不止一个字节，value & 0x7f 只取低 7 位
         * 与 0x80 进行按位或（|）运算为了将最高位置位 1 ，代表后续字节也是改数字的一部分 
        */
        writeRawByte((value & 0x7F) | 0x80);
        value >>>= 7;
      }
    }
}

该方法对 int 类型的值进行 VarInt32 编码，可以验证最多 5 个字节即可完成编码。

VarInt32 解码

理解了编码后，解码就没什么可说的了。就是从输入字节流中，读取一个字节判断最高位，将真实数据位拼接成最终的数字即可。Hadoop RPC 中使用了 Protoc Buffer 作为数据序列化框架。其中，Hadoop 针对 writeDelimitedTo 方法实现了对 VarInt32 的解码。源码如下：

/**
   * Read a variable length integer in the same format that ProtoBufs encodes.
   * @param in the input stream to read from
   * @return the integer
   * @throws IOException if it is malformed or EOF.   */
public static int readRawVarint32(DataInput in) throws IOException {    
      byte tmp = in.readByte();    
      if (tmp >= 0) {// tmp >= 0 代表最高位是 0 ，否则 tmp < 0 代表最高位是 1 ，需要继续往下读      
          return tmp;
    }    
    int result = tmp & 0x7f;    
    if ((tmp = in.readByte()) >= 0) {
         result |= tmp << 7;
    } else {
      result |= (tmp & 0x7f) << 7;      
      if ((tmp = in.readByte()) >= 0) {
        result |= tmp << 14;
      } else {
        result |= (tmp & 0x7f) << 14;        
        if ((tmp = in.readByte()) >= 0) {
          result |= tmp << 21;
        } else {
          result |= (tmp & 0x7f) << 21;
          result |= (tmp = in.readByte()) << 28;          
          if (tmp < 0) {//我们说 VarInt32 最多 5 个字节表示，当程序执行到这里，tmp < 0，说明，编码格式有问题
              // Discard upper 32 bits.
                for (int i = 0; i < 5; i++) {              
                    if (in.readByte() >= 0) {                
                        return result;
               }
            }            
           throw new IOException("Malformed varint");
          }
        }
      }
    }    
    return result;
}

在 Hadoop 源码中并没有使用循环去解码，而是使用多个 if 条件判断，根据 tmp 的正负号来判断最高位是否是 1。如果读取的该数字用了 5 个字节编码，当读到了第 5 个字节，理论上 tmp 应该大于 0 。但是如果 tmp 小于 0 ，说明编码格式有问题。在 Hadoop 源码中程序会继续往下读，最多再向下读 5 个字节且丢掉最高位仍然 < 0 的字节。如果在该过程某个字节最高位为 0 ，便停止读取直接返回。这个处理逻辑在其他框架源码中也有出现。

看完 Hadoop 的源码，我们在看看 Protoc Buffer 自己提供的解析源码：

  /**
   * Like {@link #readRawVarint32(InputStream)}, but expects that the caller
   * has already read one byte.  This allows the caller to determine if EOF
   * has been reached before attempting to read.   */
public static int readRawVarint32(final int firstByte, final InputStream input) 
throws IOException {    
    if ((firstByte & 0x80) == 0) {      
        return firstByte;
   }    
   int result = firstByte & 0x7f;    
   int offset = 7;    
   for (; offset < 32; offset += 7) {      
       final int b = input.read();      
       if (b == -1) {        
           throw InvalidProtocolBufferException.truncatedMessage();
      }
      result |= (b & 0x7f) << offset;      
      if ((b & 0x80) == 0) {        
          return result;
     }
    }    
   // Keep reading up to 64 bits.
    for (; offset < 64; offset += 7) {      
        final int b = input.read();      
        if (b == -1) {        
            throw InvalidProtocolBufferException.truncatedMessage();
      }      
      if ((b & 0x80) == 0) {        
          return result;
     }
    }    
    throw InvalidProtocolBufferException.malformedVarint();
}

可以看到 Protoc Buffer 自己提供的解码方式与 Hadoop 是一样的，包括遇到错误的编码时候的异常处理方式也是一样的。

小结

本篇文章主要介绍了 VarInt32 编解码，VarInt32 表示一个整型数字最少用 1 个字节，最多用 5 个字节。所以在传输数字大部分都比较小的场景下适合使用。当然，我们也可以用 VarInt64 来表示长整型的数字。在介绍 VarInt32 的同时我们也看到了 ProtoBuf 和 Hadoop 这样的框架在传输数据的优化上不放过任何一个细节，值得我们学习。

点击查看更多内容