1. 前言
在正式解读《Effective Java》之前,我们需要先了解 Java 反汇编,因为反汇编是我们学习和研究问题的重要手段之一。
结合反汇编才能更好地理解《Effective Java》一书中给出的一些建议的根本原因,更深入的学习知识。
因为贯穿整个专栏的很多章节会涉及到 Java 反汇编,这将是我们深入研究《Effective Java》相关知识点的重要手段。
本文将从反汇编的工具,反编译举例等角度来讲解。
2. 是什么
反汇编是指把目标代码转为汇编代码的过程,也就是把机器语言转为汇编语言代码的意思。
本文所提到的 Java 反汇编是将 Java 编译器编译的 class 文件转为更易读的形式,包括局部变量表、异常表、代码行偏移映射表、汇编指令等。
3. 为什么
很多人工作一两年甚至都没执行过一次 javap 命令。很多人会有这样的困惑,平时不学字节码也不影响自己的学习和工作啊。然而,为何要当做一个比较重要的前置章节来讲呢?
这是因为当你真正了解字节码时,更容易理解一些优化手段,能够从更深的层次理解 Java 语言,更容易认识到问题的本质原因。
4. 怎么做
接下来我们看下面一个非常简单的一个案例来学习反汇编,简单介绍字节码相关知识。
package com.imooc.xxx.effectivejava;
public class SimpleDemo {
public static void main(String[] args) {
int a = 1 + 2; // 第 6 行
System.out.println(a);
}
}
4.1 工具
4.1.1 javap
java 为我们提供了一个字节码查看工具: javap。
直接通过 javap -help 查看其用法
用法: javap <options> <classes>
其中, 可能的选项包括:
-help --help -? 输出此用法消息
-version 版本信息
-v -verbose 输出附加信息
-l 输出行号和本地变量表
-public 仅显示公共类和成员
-protected 显示受保护的/公共类和成员
-package 显示程序包/受保护的/公共类
和成员 (默认)
-p -private 显示所有类和成员
-c 对代码进行反汇编
-s 输出内部类型签名
-sysinfo 显示正在处理的类的
系统信息 (路径, 大小, 日期, MD5 散列)
-constants 显示最终常量
-classpath <path> 指定查找用户类文件的位置
-cp <path> 指定查找用户类文件的位置
-bootclasspath <path> 覆盖引导类文件的位置
我们首先对源码进行编译 javac SimpleDemo.java
,然后采用 javap 进行反编译。
javap -c -v SimpleDemo
Classfile /Users/liuwangyang/Coding/git/javalearning/src/main/java/com/chujianyun/others/effectivejava/SimpleDemo.class
Last modified 2020-1-11; size 432 bytes
MD5 checksum e25f7c937eccaab6db2e5b99ef48733c
Compiled from "SimpleDemo.java"
public class com.chujianyun.others.effectivejava.SimpleDemo
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #5.#14 // java/lang/Object."<init>":()V
#2 = Fieldref #15.#16 // java/lang/System.out:Ljava/io/PrintStream;
#3 = Methodref #17.#18 // java/io/PrintStream.println:(I)V
#4 = Class #19 // com/chujianyun/others/effectivejava/SimpleDemo
#5 = Class #20 // java/lang/Object
#6 = Utf8 <init>
#7 = Utf8 ()V
#8 = Utf8 Code
#9 = Utf8 LineNumberTable
#10 = Utf8 main
#11 = Utf8 ([Ljava/lang/String;)V
#12 = Utf8 SourceFile
#13 = Utf8 SimpleDemo.java
#14 = NameAndType #6:#7 // "<init>":()V
#15 = Class #21 // java/lang/System
#16 = NameAndType #22:#23 // out:Ljava/io/PrintStream;
#17 = Class #24 // java/io/PrintStream
#18 = NameAndType #25:#26 // println:(I)V
#19 = Utf8 com/chujianyun/others/effectivejava/SimpleDemo
#20 = Utf8 java/lang/Object
#21 = Utf8 java/lang/System
#22 = Utf8 out
#23 = Utf8 Ljava/io/PrintStream;
#24 = Utf8 java/io/PrintStream
#25 = Utf8 println
#26 = Utf8 (I)V
{
public com.chujianyun.others.effectivejava.SimpleDemo();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 3: 0
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=2, args_size=1
0: iconst_3
1: istore_1
2: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
5: iload_1
6: invokevirtual #3 // Method java/io/PrintStream.println:(I)V
9: return
LineNumberTable:
line 6: 0
line 7: 2
line 8: 9
}
SourceFile: "SimpleDemo.java"
4.1.2 jclasslib
安装以后,在 IDEA 编译源码后,可以选择 “view” ->“Show Bytecode With Jclasslib” 即可查看字节码:
如上图所示,可以直观地看到 class 文件包含基本信息、常量池、接口信息、字段信息、方法信息和属性信息。
其中方法信息又包含行号表、局部变量表,异常表等。
行号表的左侧表示源代码的行数,右侧表示在 Code 中的行数:
LineNumberTable:
line 6: 0
line 7: 2
line 8: 9
表示源代码中的第 6 行对应 Code 的 0 行(也可以理解为偏移数)。
使用 jclasslib 字节码查看工具的优势在于更直观,另外可以点击字节码指令会自动通过浏览器到 jvm 规范的相关指令的介绍网页,对大家熟悉字节码指令帮助非常大。
4.2 资料
字节码相关知识内容庞杂,全部掌握不是一朝一夕的事情。
除了平时多动手之外,强烈推荐大家多读读两本非常经典的图书:《深入理解 Java 虚拟机》、《Java 虚拟机规范》。
大家也可以通过 Oracle 的 Java 标准 网页里浏览和下载《Java 语言规范》、《Java 虚拟机规范》。
4.3 简要介绍
接下来要简单了解 class 文件结构和常见的字段描述符和助记符。
4.3.1 class 文件结构
从反汇编的代码中我们可以基本了解到 class 文件的结构:
ClassFile {
u4 magic;
u2 minor_version;
u2 major_version;
u2 constant_pool_count;
cp_info constant_pool[constant_pool_count-1];
u2 access_flags;
u2 this_class;
u2 super_class;
u2 interfaces_count;
u2 interfaces[interfaces_count];
u2 fields_count;
field_info fields[fields_count];
u2 methods_count;
method_info methods[methods_count];
u2 attributes_count;
attribute_info attributes[attributes_count];
}
包括
属性 | 含义 | 备注 |
---|---|---|
magic | 魔数 | 固定值 0xCAFEBABE |
minor_version | 副版本号 | |
major_version | 主版本号 | |
constant_pool_count | 常量池计数器 | |
constant_pool[] | 常量池 | |
access_flags | 访问标记 | |
this_class | 类索引 | 必须是常量池表中一个有效的索引值 |
super_class | 父类索引 | 要么是 0 (Object 类),要么是常量池表中一个有效的索引值 |
interfaces_count | 接口计数器 | 当前类或接口的直接接口数量 |
interfaces[] | 接口表 | |
fields_count | 字段计数器 | |
fields[] | 字段表 | 每个成员都必须是 fields_info 结构 |
methods_count | 方法计数器 | |
methods | 方法表 | 每个成员都必须是 method_info 结构 |
attributes_count | 属性计数器 | |
attributes[] | 文件属性表 | 每个成员必须是 attribute_info 结构 |
想了解更详细的内容,大家可以进一步阅读《Java 虚拟机规范》。
4.3.2 常见知识讲解
读字节码最需要了解的是字段描述符:
FieldType 中的字符 | 类型 | 含义 |
---|---|---|
B | byte | 有符号的字节型数 |
C | char | Unicode 字符码点,UTF-16 编码 |
D | double | 双精度浮点数 |
F | float | 单精度浮点数 |
I | int | 整型数 |
J | long | 长整型 |
L className; | reference | ClassName 类的实例 |
S | short | 有符号短整型 |
Z | boolean | 布尔值 true/false |
[ | Reference | 一个一维数组 |
如 String 类的实例,其描述符为 Ljava/lang/String。二维数组 int [][] 类型的实例变量,其描述符为 [[I。
常见的 Java 虚拟机指令的助记符:
类型 | 助记符 | 含义 |
---|---|---|
常量 | const_null | 将 null 推到栈顶 |
iconst_1 | 将整数类型的 1 推到栈顶 | |
fconst_0 | 将 float 类型的 2 推到栈顶 | |
dcounst_0 | 将 double 类型的 0 推到栈顶 | |
ldc | 将 int 、float 或 String 类型常量值从常量池推至栈顶 | |
… | ||
加载 | iload | 将指定的 int 类型本地变量推送至栈顶 |
iload_2 | 第 2 个 int 类型本地变量推送至栈顶 | |
aload_3 | 将第 3 个引用类型的本地变量推送至栈顶 | |
cload | 将 char 类型数组的指定元素推送至栈顶 | |
… | ||
存储 | istore | 将栈顶 int 类型数值存入指定的本地变量 |
astore | 将栈顶引用类型的数值存入指定的本地变量 | |
istore_3 | 将栈顶 int 类型数值存入第 3 个本地变量 | |
… | ||
引用 | getstatic | 获取指定类的静态字段,并将其压入栈顶 |
putstatic | 为指定类的静态字段赋值 | |
getfield | 获取指定类的实例字段,并将其值压入栈顶 | |
putfield | 为指定类的实例字段赋值 | |
invokevirtual | 调用实例方法 | |
invokespecial | 调用父方法、实例初始化方法、私有方法 | |
invokestatic | 调用静态方法 | |
invokeinterface | 调用接口方法 | |
invokedynamic | 调用动态连接方法 | |
new | 创建一个对象,并将其引用压入栈顶 | |
athrow | 将栈顶异常抛出 | |
instanceof | 检查对象是否为指定类的实例,如果是,将 1 压到栈顶,否则将 0 压到栈顶 | |
… | ||
栈 | pop | 将栈顶数值弹出(非 long 和 double) |
pop2 | 将栈顶 long 或 double 数值弹出 | |
dup | 复制栈顶数值并将复制值压入栈顶 | |
… | ||
控制 | ireturn | 从当前方法返回 int 值 |
return | 从当前方法返回 void 值 | |
… | ||
比较 | ifeq | 当栈顶的 int 类型的数值等于 0 时跳转 |
ifne | 当栈顶的 int 类型的数值不等于 0 时跳转 | |
… | ||
拓展 | 为 null 时跳转 | |
… | ||
数学 | … | |
转换 | ||
比较 |
更多助记符的含义,请参考相关文档 或使用 jclass 字节码查看插件快捷跳转到对应助记符的含义中进一步学习。
4.4 示例讲解
有了上面的基础后,结合 main 函数的字节码,我们反推源码:
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=2, args_size=1
0: iconst_3
1: istore_1
2: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
5: iload_1
6: invokevirtual #3 // Method java/io/PrintStream.println:(I)V
9: return
LineNumberTable:
line 6: 0
line 7: 2
line 8: 9
}
通过描述符 (description) 可知:方法的参数为字符串类型的数组,返回值类型为 void。
通过访问标记 (flags) 可知:该函数为 public static 修饰。
栈的最大深度为 2 ;局部变量表的元素有 2 个;参数的长度为 1。
局部变量表和操作数栈初始状态如下图所示:
执行 iconst_3
将 int 类型常量 3 压入栈顶。
执行 istore_1
栈顶将 int 类型的值存入局部变量表索引为 1 的变量中。
然后执行 getstatic
获取 PrintStream
实例并压入栈顶。
然后执行 iload_1
从局部变量表索引为 1 的位置取值压入栈顶。
然后通过 invokevirtual #3 // Method java/io/PrintStream.println:(I)V
调用 PrintStream 实例的 println 方法。此时,栈底元素为对象引用,往上为参数。如果不是调用 native 方法,调用结束后,对象引用和参数都会出栈。
然后执行 return
返回。
因此我们可以脑补出等价的 main
函数源代码:
public static void main(String[] args) {
int a = 3; // 第 6 行
System.out.println(a);
}
4.5 建议
相信有些人第一次反汇编会有些发憷,认为很难。
但是希望大家不要想口吃个大胖子,能够本着循序渐进的原则来学习。
其实字节码指令本身都是英语单词,看单词基本就可以猜出其含义,然后再多查查《Java 虚拟机规范》中指令的含义,慢慢就会熟悉起来。
建议大家将源码和反汇编后的字节码一起学习,将字节码指令和源代码对照学习,理解会更快更好。
随着对虚拟机和字节码相关知识学习地不断加深,可以尝试只看反编译后的代码自行脑补出源代码。
大家要多尝试通过猜想和验证的方式,来检验自己知识的掌握程度。
5. 总结
本文主要讲解了反汇编的概念、反汇编的目的,介绍了反汇编的相关工具,并给介绍了 class 的结构描述,字符描述和指令助记符等。本文通过一个简单的例子,并通过配图帮助大家理解指令的执行效果。
希望大家在今后的学习和工作中,能够通过不断的练习来掌握通过字节码来分析问题和理解知识的能力。
下一节将讲述读源码过程中,使用反编译和反汇编来研究问题的一个经典案例。
6. 思考与练习
1、 分别使用不同的 javap 选项去反汇编本文给出的案例查看效果。
2、 写一个简单的 Java 代码,然后安装并使用 jclasslib 字节码查看插件去研究。
3、通过本节所学的内容,请对下面的代码进行反编译、反汇编
package com.imooc.xxx.effectivejava;
public class SimpleDemo {
public static void main(String[] args) {
String a = "a" + "b";
System.out.println(a);
}
}
欢迎在留言区进行评论和探讨。