JVM-Java类文件结构
首先,我们应该都知道一个概念,就是平台无关性。各种不同平台的Java虚拟机,以及所有平台都统一支持的程序存储格式------字节码(Byte Code)是构成平台无关性的基石。
同时,我们也应该知道,Java虚拟机并不仅仅可以运行Java语言,还有:Kotlin、Clojure、Groovy、JRuby、JPython、Scala等。
Java虚拟机不与包括Java语言在内的任何程序语言绑定,它只与"Class文件"这种特定的二进制文件格式所关联,Class文件中包含了Java虚拟机指令集、符号表以及若干其他辅助信息。
那么,我们就知道了,只要将不同的高级语言经过对应的编译器编译成可以被Java虚拟机所识别并满足《Java虚拟机规范》的约束的Class文件即可被Java虚拟机运行。
该篇文章对Class类文件的介绍,都用的这个类!!!
java
public class MyTest1 {
private int a = 1;
public int getA() {
return a;
}
public void setA(int a) {
this.a = a;
}
}
一、工具介绍
1.1 二进制工具
Class文件对应的二进制解析,本人用的这个博主的工具:github.com/zxh0/classp...
下载Zip,解压之后,在当前文件夹cmd,执行 gradlew run
即可启动 Classpy,后面将.class文件拖入界面即可。
需要注意,一定要下载对应JDK版本的,我这里用的JDK8,所以classpy用的java8。
二进制文件:
1.2 javap
1、进入要编译的class文件目录,执行 javap -c MyTest1.class
csharp
C:...\classes\jvm\part6>javap -c MyTest1.class
Compiled from "MyTest1.java"
public class jvm.part6.MyTest1 {
public jvm.part6.MyTest1();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: aload_0
5: iconst_1
6: putfield #2 // Field a:I
9: return
public int getA();
Code:
0: aload_0
1: getfield #2 // Field a:I
4: ireturn
public void setA(int);
Code:
0: aload_0
1: iload_1
2: putfield #2 // Field a:I
5: return
}
2、进入要编译的class文件目录,执行 javap -verbose MyTest1.class
yaml
C:...\classes\jvm\part6>javap -verbose MyTest1.class
Classfile /C:/xxl/Java8InAction/target/classes/jvm/part6/MyTest1.class
Last modified 2022-12-16; size 465 bytes
MD5 checksum 80586d072bb9259ae629d5bffba5d493
Compiled from "MyTest1.java"
public class jvm.part6.MyTest1
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #4.#20 // java/lang/Object."<init>":()V
#2 = Fieldref #3.#21 // jvm/part6/MyTest1.a:I
#3 = Class #22 // jvm/part6/MyTest1
#4 = Class #23 // java/lang/Object
#5 = Utf8 a
#6 = Utf8 I
#7 = Utf8 <init>
#8 = Utf8 ()V
#9 = Utf8 Code
#10 = Utf8 LineNumberTable
#11 = Utf8 LocalVariableTable
#12 = Utf8 this
#13 = Utf8 Ljvm/part6/MyTest1;
#14 = Utf8 getA
#15 = Utf8 ()I
#16 = Utf8 setA
#17 = Utf8 (I)V
#18 = Utf8 SourceFile
#19 = Utf8 MyTest1.java
#20 = NameAndType #7:#8 // "<init>":()V
#21 = NameAndType #5:#6 // a:I
#22 = Utf8 jvm/part6/MyTest1
#23 = Utf8 java/lang/Object
{
public jvm.part6.MyTest1();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=2, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: aload_0
5: iconst_1
6: putfield #2 // Field a:I
9: return
LineNumberTable:
line 8: 0
line 9: 4
LocalVariableTable:
Start Length Slot Name Signature
0 10 0 this Ljvm/part6/MyTest1;
public int getA();
descriptor: ()I
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: getfield #2 // Field a:I
4: ireturn
LineNumberTable:
line 12: 0
LocalVariableTable:
Start Length Slot Name Signature
0 5 0 this Ljvm/part6/MyTest1;
public void setA(int);
descriptor: (I)V
flags: ACC_PUBLIC
Code:
stack=2, locals=2, args_size=2
0: aload_0
1: iload_1
2: putfield #2 // Field a:I
5: return
LineNumberTable:
line 16: 0
line 17: 5
LocalVariableTable:
Start Length Slot Name Signature
0 6 0 this Ljvm/part6/MyTest1;
0 6 1 a I
}
SourceFile: "MyTest1.java"
二、Class类文件结构
任何一个Class文件都对应着唯一的一个类或接口的定义信息,但是反过来说,类或接口并不一定都得定义在文件里(譬如类或接口也可以动态生成,直接送入类加载器中)。
Class文件是一组以8个字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在文件之中,中间没有添加任何分隔符.
根据《Java虚拟机规范》的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型: "无符号数"和"表" 。
-
无符号数:属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
-
表:由多个无符号数或者其他表作为数据项构成的复合数据类型,为了便于区分,所有表的命名都习惯性地以"_info"结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上也可以视作是一张表。
-
而且这张表是按照下面的数据项严格顺序排列的 。
-
完整的Java字节码结构(从class文件考虑)
-
用这两个图去对比 (第一张章节中用Classpy编译MyTest1.class出来的二进制文件,ClassFile也是相同的16个数据项)。
2.1 魔数
每个Class文件的头4个字节被称为魔数(Magic Number),它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Class文件。
Class文件的魔数是固定的:CAFEBABE
字节码和二进制的对应关系:
2.2 版本号
4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号(MinorVersion),第7和第8个字节是主版本号(Major Version)。
JDK 1.1能支持版本号为45.0~45.65535的Class文件,无法执行版本号为46.0以上的Class文件,而JDK 1.2则能支持45.0~46.65535的Class文件。
关于次版本号,曾经在现代Java(即Java 2)出现前被短暂使用过,JDK 1.0.2支持的版本45.0~45.3(包括45.0~45.3)。JDK 1.1支持版本45.0~45.65535,从JDK 1.2以后,直到JDK 12之前次版本号均未使用,全部固定为零。
字节码和二进制的对应关系:下面的 major_version:52
代表着大版本号:JDK 8
2.3 常量池
2.3.1 常量的数量
紧接着主、次版本号之后的是常量池入口,常量池可以比喻为Class文件里的资源仓库,它是Class文件结构中与其他项目关联最多的数据,通常也是占用Class文件空间最大的数据项目之一,另外,它还是在Class文件中第一个出现的表类型数据项目。
由于常量池中常量的数量是不固定的 ,所以在常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值 (constant_pool_count)。但是需要注意一点的是:这个容量计数是从1而不是0开始的。
常量池容量计数值 字节码和二进制的对应关系:
2.3.2 常量池
常量池中主要存放两大类常量:字面量(Literal)和符号引用(Symbolic References) 。
-
字面量比较接近于Java语言层面的常量概念,如:文本字符串、被声明为final的常量值等。
-
而符号引用则属于编译原理方面的概念,主要包括下面几类常量:
- 被模块导出或者开放的包(Package);
- 类和接口的全限定名(Fully Qualified Name);
- 字段的名称和描述符(Descriptor);
- 方法的名称和描述符;
- 方法句柄和方法类型(Method Handle、Method Type、Invoke Dynamic);
- 动态调用点和动态常量(Dynamically-Computed Call Site、Dynamically-Computed Constant)。
常量池中每一项常量都是一个表 ,最初常量表中共有11种 结构各不相同的表结构数据,后来为了更好地支持动态语言调用,额外增加了4种 动态语言相关的常量,为了支持Java模块化系统(Jigsaw),又加入了CONSTANT_Module_info
和CONSTANT_Package_info
两个 常量,所以截至JDK13,常量表中分别有17种不同类型的常量。
这17类表都有一个共同的特点,表结构起始的第一位是个u1类型的标志位(tag,如下表所示) ,代表着当前常量属于哪种常量类型:
所以,当我们看常量池中,某一个常量是什么类型的时候,首先看 tag标志是多少,对应下表标志即可知道该常量类型。
常量池中的17种数据类型的结构总表:
2.3.2 常量池类型实践
下面我们根据上面的表格,对MyTest1.class
中的常量池中的一些常量进行分析:
实践一: 常量a:(注意:这里其实是字面量)
css
tag(u1) :1,表示字符串常量;红色标注
length(u2):1,表示字符串占用字节数:1个字节;黄色标注
bytes(u1) :a,表示长度位length的UTF-8编码:a;蓝色标注。
实践二: MyTest.a
引用变量
css
tag(u1) :9,表示字段a的符号引用;
index(u2) :3,表示 指向声明字段的类或者接口描述符CONSTANT_Class_info的索引项,这里表示指向03,即MyTest1类的描述符,图中黄色标注;
index(u2) :21,指向字段描述符CONSTANT_NameAndType的索引项,这里指向21,即字段a的描述符的索引项,图中标注蓝色。
常量池里面信息,需要我们比对着类型表即可通读解析下来。
2.4 访问标志
在常量池结束之后,紧接着的2个字节代表访问标志(access_flags) ,这个标志用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口;是否定义为public类型;是否定义为abstract类型;如果是类的话,是否被声明为final;等等。
access_flags中一共有16个标志位可以使用,当前只定义了其中9个,没有使用到的标志位要求一律为零。
访问标志 字节码和二进制的对应关系:
ACC_PUBLIC(0x0001)、ACC_SUPER(0x0020),所以MyTest1.class
类 access_flags的值应为:0x0001|0x0020=0x0021
2.5 类索引、父类索引与接口索引集合
类索引(this_class)和父类索引(super_class)都是一个u2类型 的数据,而接口索引集合(interfaces)是一组u2类型的数据的集合,Class文件中由这三项数据来确定该类型的继承关系。
类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。
2.5.1 类索引
可以知道 MyTest1.class
的类索引在常量池的地址是 00 03
,去常量池找一下。
去常量池中找 MyTest1.class
类的全称限定名:
上面的查找过程梳理:
2.5.2 父类索引
父类索引查找父类的全称限定名过程 和 查到类索引的全称限定名过程一样。
2.5.3 接口索引集合
对于接口索引集合,入口的第一项u2类型的数据为接口计数器(interfaces_count),表示索引表的容量。如果该类没有实现任何接口,则该计数器值为0,后面接口的索引表不再占用任何字节。
2.6 字段表集合
字段表(field_info)用于描述接口或者类中声明的变量。Java语言中的"字段"(Field)包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。
一个字段包含的信息都有:字段的作用域(public、private、protected修饰符)、是实例变量还是类变量(static修饰符)、可变性(final)、并发可见性(volatile修饰符,是否强制从主内存读写)、可否被序列化(transient修饰符)、字段数据类型(基本类型、对象、数组)、字段名称。
下表就是字段表的表结构:
按照上面的字段表表结构,对字段 a
进行分析:
下面对字段表里面的几个类型做一下阐明:
-
1、字段访问标志:(如果有多个,也是 [ 相与 ])
如:
private static int i;
标志是:ACC_PRVATE、ACC_STATIC (0x0002 | 0x0008 = 0x000B)但是需要注意的是:ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三个标志最多只能选择其一;ACC_FINAL、ACC_VOLATILE不能同时选择;接口之中的字段必须有ACC_PUBLIC、ACC_STATIC、ACC_FINAL标志。
-
2、"简单名称"、"描述符"、"全限定名"
-
全限定名:
org/fenixsoft/clazz/TestClass
; -
简单名称:没有类型和参数修饰的方法或者字段名称,这个类中的
get()
方法和a
字段的简单名称分别就是"get"和"a"; -
方法和字段的描述符:
描述符的作用是用来描述字段的数据类型 、方法的参数列表(包括数量、类型以及顺序)和返回值。
根据描述符规则:
-
基本数据类型(byte、char、double、float、int、long、short、boolean);
-
代表无返回值的void类型都用一个大写字符来表示;
-
对象类型则用字符L加对象的全限定名来表示。
-
-
例如:
-
对于数组类型,每一维度将使用一个前置的"["字符来描述,如一个定义为"java.lang.String"类型的二维数组将被记录成"[[Ljava/lang/String;",一个整型数组"int[]"将被记录成"[I"。
-
描述符来描述方法时,按照先参数列表、后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号"()"之内:
- 如:方法void inc()的描述符为"()V";
- 如:方法java.lang.String toString()的描述符为"()Ljava/lang/String;";
- 如:方法int indexOf(char[]source,int sourceOffset,int sourceCount,char[]target,int targetOffset,int targetCount,int fromIndex)的描述符为"([CII[CIII)I"。
-
-
2.7 方法表集合
方法表的结构如同字段表一样,依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)几项。。这些数据项目的含义也与字段表中的非常类似,仅在访问标志和属性表集合的可选项中有所区别。
因为volatile关键字和transient关键字不能修饰方法,所以方法表的访问标志中没有了ACC_VOLATILE标志和ACC_TRANSIENT标志。与之相对,synchronized、native、strictfp和abstract关键字可以修饰方法,方法表的访问标志中也相应地增加了ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP和ACC_ABSTRACT标志。
对 MyTest1.class中的方法进行分析:
2.8 属性表集合
因为之前的MyTest1中涉及的属性表不是很全面,这里我们换一个测试类:
java
public class MyTest2<T> {
private int a = 1;
@Deprecated
private String b;
private int test(int a,T b){
List<String> list = Stream.of(new String[]{"2","1","3"}).sorted().collect(Collectors.toList());
b = (T) new String("1");
try {
a = 2;
}catch (Exception e){
e.printStackTrace();
}finally {
a = a*2;
}
return a;
}
/**
* 内部类
*/
class InnerClassTest{
}
}
下表就是属性中的关键的、常用的一些属性信息:
1、Code属性
Java程序方法体里面的代码经过Javac编译器处理之后,最终变为字节码指令存储在Code属性内。
Code属性出现在方法表的属性集合之中,但并非所有的方法表都必须存在这个属性,譬如接口或者抽象类中的方法就不存在Code属性,如果方法表有Code属性存在,那么它的结构将如下表所示。
下图展示了 test()
的 Code
属性,我们可以按照Code表对该方法进行解析。
-
我们看一下
code
里面的东西 :可以看到
code
里面都是该方法中要执行的字节码指令(具体的指令执行细节,后面会再写一篇单独描述)
-
再看一下里面的异常表:
字段含义为:如果当字节码从第start_pc行到第end_pc行之间(不含第end_pc行)出现了类型为catch_type或者其子类的异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理。当catch_type的值为0时,代表任意异常情况都需要转到handler_pc处进行处理。
- 我们可以看,在MyTest2的
test()
方法中 对照 异常表属性进行异常跳转的分析:
2、Exceptions属性
这里的Exceptions属性是在方法表中与Code属性平级的一项属性,Exceptions属性的作用是列举出方法中可能抛出的受查异常(Checked Excepitons),也就是方法描述时在throws关键字后面列举的异常。
注意,我们在写测试类的时候,需要写一个 受检查的异常才会有和这个 Exceptions表
,这里我用的是 AccessorException
3、attributes中的四个属性
-
LineNumberTable:
用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。
-
LocalVariableTable:
用于描述栈帧中局部变量表的变量与Java源码中定义的变量之间的关系。
-
LocalVariableTypeTable:(主要是对泛型进行描述的)
这个新增的属性结构与LocalVariableTable非常相似,仅仅是把记录的字段描述符的descriptor_index替换成了字段的特征签名(Signature) 。对于非泛型类型来说,描述符和特征签名能描述的信息是能吻合一致的,但是泛型引入之后,由于描述符中泛型的参数化类型被擦除掉,描述符就不能准确描述泛型类型了。因此出现了LocalVariableTypeTable属性,使用字段的特征签名来完成泛型的描述。
-
StackMapTable:
目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。
StackMapTable属性中包含零至多个栈映射帧(Stack Map Frame),每个栈映射帧都显式或隐式地代表了一个字节码偏移量,用于表示执行到该字节码时局部变量表和操作数栈的验证类型。类型检查验证器会通过检查目标方法的局部变量和操作数栈所需要的类型来确定一段字节码指令是否符合逻辑约束。
4、Signature、SourceFile、InnerClasses
-
Signature:
它是一个可选的定长属性,可以出现于类、字段表和方法表结构的属性表中。在JDK 5里面大幅增强了Java语言的语法,在此之后,任何类、接口、初
始化方法或成员的泛型签名如果包含了类型变量(Type Variable)或参数化类型(Parameterized Type),则Signature属性会为它记录泛型签名信息。
其中signature_index项的值必须是一个对常量池的有效索引。常量池在该索引处的项必须是CONSTANT_Utf8_info结构,表示类签名或方法类型签名或字段类型签名。如果当前的Signature属性是类文件的属性,则这个结构表示类签名,如果当前的Signature属性是方法表的属性,则这个结构表示方法类型签名,如果当前Signature属性是字段表的属性,则这个结构表示字段类型签名。
图里面贴的是,类文件的Signature属性。
-
SourceFile:
用于记录生成这个Class文件的源码文件名称。
sourcefile_index数据项是指向常量池中CONSTANT_Utf8_info型常量的索引,常量值是源码文件的文件名。
-
InnerClasses:
InnerClasses属性用于记录内部类与宿主类之间的关联。
数据项number_of_classes代表需要记录多少个内部类信息,每一个内部类的信息都由一个inner_classes_info表进行描述。inner_class_info_index和outer_class_info_index都是指向常量池中CONSTANT_Class_info型常量的索引,分别代表了内部类和宿主类的符号引用。
inner_name_index是指向常量池中CONSTANT_Utf8_info型常量的索引,代表这个内部类的名称,如果是匿名内部类,这项值为0。
inner_class_access_flags是内部类的访问标志,类似于类的access_flags。
其他的就不在介绍了。