探秘JVM内部 - 技术栈

在我们编写Java代码，点击运行后，会发生什么事呢？

首先，Java源代码会经过Java编译器将其编译成字节码，放在.class文件中

然后这些字节码文件就会被加载到jvm中，然后jvm会读取这些文件，调用相关解释器和编译器去执行字节码文件。

这是一个非常简略的过程，即使是简略的过程，我们也了解到了这个jvm的重要性。

接下来小编就会分享jvm相关知识。

比如jvm的内存区域划分、jvm的类加载过程、jvm的垃圾回收机制

那么首先来了解下，什么是jvm呢？

JVM（Java Virtual Machine）

意为Java虚拟机

那什么又是虚拟机呢？

虚拟机：是一种通过软件模拟，具有完整硬件系统功能的计算机系统，它允许在一个完全隔离的环境中。

对于虚拟机呢，它又分为两种

1.系统虚拟机

系统虚拟机提供了一个完整的工作平台，使得多个操作系统示例可以在单个物理机器上运行。每个虚拟机实例都像一个独立的计算机一样工作，拥有自己的操作系统、CPU时间、内存空间资源等等

对于常见的系统虚拟机：
1.VMware Workstation

2.Oracle VirtualBox

3.Microsoft Hyper-v

这些虚拟机软件运行用户安装不同的类型的客户端操作系统。例如在Windows运行Linux或macOs环境，便于测试。

2.进程虚拟机

进程虚拟机则是更加专注于特定应用程序或编程语言代码环境。与系统虚拟机不同的是，它通常不模拟底层硬件环境，而是为特定的应用程序提供一个抽象层，使其能够在任何支持该虚拟机的平台上运行，最著名的例子就是Java虚拟机

除了这个还有像python的CP python解释器，Ruby的YARV虚拟机等。

所以总的来说，Java虚拟机就像是一个现实不存在的计算机。

那么接下来分享第一部分

JVM的内存区域划分

JVM在运行时会将内存划分为几个区域：

一：程序计数器

1.每个线程都有独立的程序计数器

2.作用就是记录当前线程执行到字节码哪个位置

3.如果线程正在执行的是Java方法，这个计数器记录的是正在执行的虚拟机字节码指令地址；

如果是执行的是本地方法（native方法），那么计数器就是为空

注意native方法是由c/c++语言写的

4.同时这个是Java虚拟机规范中，没有规定任何OutOfMemoryError情况的区域

二：JAVA虚拟机栈

1.同样的，每个线程也会私有一个栈

2.栈帧是用于支持虚拟机进行方法调用和执行的数据结构，每一个方法从被调用到执行完成的过程，就对应着一个栈帧在虚拟机中从入栈到出栈的过程.

调用方法即分配一个栈帧

栈帧中包含了局部变量表、操作数栈、常量池引用和方法的返回地址

当方法体执行完毕，栈帧就会销毁

3.由于栈帧是一片连续的内存区域，因此栈的空间是有限的，过度的递归和调用可能会导致

"StackOverFlowError"

三：本地方法栈

1.本地方法栈是专门为执行本地方法而准备的栈。与虚拟机栈类似。

2.注意本地方法栈不是每个JVM都存在的

3.本地方法栈内容和虚拟机栈类似，但存储的是本地方法的参数、局部变量，返回值

4.本地方法栈也有大小，若溢出，也会抛出StackOverFlowError。

四：堆

1.是jvm中最大一块区域，用于存储Java程序中对象和数组，几乎所有的对象和数组都在堆中分配内存

2.堆是共享，所有线程可以访问堆中的对象

3.堆内存的管理由垃圾回收器负责，会定期清理不在使用的垃圾，释放内存

4.堆中也有几块区域，包括年轻代、老年代和持久代（jdk8之前j，dk8后是元数据区）。

年轻代：包含新创建的对象

老年代：包含生命周期较长的对象

五：方法区

这是一个JVM规范中通用概念。

方法区是用于存储类的结构信息，如类名、方法、字段、接口、常量等数据。这些数据在程序加载时由jvm加载。

1.方法区是各线程共享的

2.还存储常量池，静态变量等

对于常量池而言

它存储了类中常量。

比如字符串常量、数字常量等，这些常量在程序运行时是共享的。

值得注意的是，jdk8之前，HotSpot JVM使用永久代实现了方法区，jdk8后，使用了元数据区来实现这一方法区。

那么对于这个内存区域划分就分享到这，接下来分享下jvm的类加载过程

类加载

一：加载

在这个阶段中呢，jvm根据类权限定名（包名和类名）从字节码文件（.class文件）中，加载类的内容，形成一个class对象，此时，jvm将从字节码文件读入内存，并创建一个代表该类的class对象。

大概的过程如下

1.定位：jvm根据类名找到类的字节码文件，通常字节码文件在类路径中，jvm通过类加载器来定位和加载字节码

2.加载：类加载器将.class文件的字节流加载到内存中

3.返回：类加载器返回一个class对象，该对象用于表示类的结构。

而对于类加载这里，不得不提到一个模型：单亲委派模型

如图

这个单亲委派模型，有一个较为显著的作用就是

当你项目定义的一个类个原有JDK中的某个类，重合了，此时呢，执行单亲委派模型的时候，就会只会加载JDK中类，自己写的类，不会生效，从而不会对项目中造成负面破坏。

二：验证

验证从外部加载的类字节码是否合法，并符合JVM要求的，避免不安全的代码对程序的安全性和稳定性造成影响

大概过程如下

文件格式验证：检查.class文件的基本格式是否是符合Java字节码规范

元数据验证：检查类的元数据是否是合法的，如常量池、方法签名字段签名

字节码验证：确保字节码的指令符合JVM的执行要求，不包含非法指令和无效的跳转。

三：准备

在这个阶段，jvm为类的静态变量分配内存空间，并为其初始化为默认值

比如int 默认为0，Boolean 默认为false，引用类型的对象就是默认为null

四：解析

此时是将类中的符号引用转换为直接引用的过程。符号引用通常保存在常量池中，直接引用指向内存地址。

jvm会将类中的符号引用（比如方法名、字段名）解析为实际的内存地址或者对应的方法和字段

比如CLassName.methodName(),调用方法时，jvm会在解析过程把methodName（）符号引用代替为实际的内存地址，确保可以找到方法并正确执行。

五：初始化

此时是类加载的最后一个阶段，类的静态变量和静态代码块会在此阶段被初始化。

大概过程如下

静态变量赋值，在这个准备阶段，类的静态变量被赋予默认值，在初始化阶段，类中的静态变量和

静态代码块会根据类中的声明进行初始化

静态代码块初始化，如若类有静态代码块，它会在类的初始化时执行。

父类初始化，在子类初始化之前，jvm会先对父类进行初始化先，只有当父类的初始化完成后，子类才能开始初始化。

那么对于类的加载，就分享到这里，接下来分享下垃圾回收机制

垃圾回收机制（Garbage Collection）

那么在jvm内存区域中，GC会对哪个地方进行"大动干戈"呢？

显然，堆是占用了一片连续的内存区域，存放的数据多，此时呢，GC主要回收的区域就是堆了。

那么对于垃圾回收而言，它是以对象为维度进行回收的

比如

那么好，既然讲到了回收，GC是如何回收的呢？

一：寻找垃圾

对于寻找垃圾而言，这里呢，分享下存在的几个方案

1.引用计数

即给每个对象分配一个计数器，

当指向这个对象的引用增加了，此时呢，计数器+1

指向这个对象的引用减少了，此时，计数器-1

当计数器减到0的时候，就可以认为当前对象，不使用了，可以进行回收。

如图：

但这个方案也是有坏处的，比如

循环引用，举个例子

所以，我们，还可以引入另一个方案

可达性分析

这个是一种核心算法，可以判断哪些对象是"存活"的，哪些对象是"垃圾"。

它通过构建一个从根节点（GCRoots）出发的引用链去追踪可以访问的所有对象，无法通过引用链到达的对象就是认为不可达的，即是垃圾。

简单类比一下

就像是一棵树的根部视为起点，树枝和树叶则视为引用链，如若树叶无法通过树枝连接到根部，那么就可以视为垃圾。

对于GCRoots中，它可以包含很多类型

1.虚拟机栈中的局部变量表

2.本地方法栈的引用

3.方法区中的静态变量

4.活动线程

............

对于可达性来说，它涉及到这几种状态

1.强可达

对象可以通过引用链从GCRoots直接访问

这些对象不会回收，比如日常必需品

2.软可达

对象通过软引用访问

内存不足的时候，进行回收，比如日常中有些不常用的东西，内存不足的时候被丢弃

3.弱可达

通过对象的弱引用访问

下一次垃圾回收的时候，就会被回收，比如有已经不需要的东西，随意可抛弃

4.虚可达

对象通过虚引用访问

用于追踪对象的回收状态，不能直接访问对象，就比如日常中，从头到尾不需要的东西，我们只关心它什么时候被清理

在JVM中，才有了第二种方案

但可达性分析也是有缺点的

进行可达性分析的时候，为了保证引用关系的一致性，通常需要用户暂停线程，可能会导致短暂的卡顿状态，这样的状态可以称为"Stop-The-World"

那么知道了哪些是垃圾，那么又该如何清理垃圾呢？

清理垃圾

这里也分享下，已有的方案

1.标记-清除

即对没有的使用的对象进行标记了，然后进行直接清除。

比如

但问题是，空闲的内存并没在次连接在一起，而此时直接清除对象，带有随机性的

所以会造成内存碎片的情况发生，最后导致我们下次去申请内存的时候，不能申请一块连续的内存。

2.复制算法

就是说，对一块申请到的内存而言，一分为二。

同一时刻，只会使用其中一半，当着一半中存在着垃圾，就会把它拷贝到另一半中，当全部对象都使用完了，那就整一块内存都进行释放。

优点就是解决了刚刚内存碎片问题

但是又引入了一个问题，即内存利用率不高，就是比较耗内存。

3.标记-整理

此时的这个方法呢，就是把要进行垃圾会受到时候，把所有正在使用的对象，挪到另一端，

然后直接清理端边界以外的内存。

当然此时呢，整块内存也用了，也没有一分为二使用内存了，但缺点还是有的

比如，当存活对象较多时，挪动的过程也是需要时间开销的。

所以，jvm中对以上的方案进行整合

使用了一种分代回收的方案

4.分代回收

它基于一个观察：大多数对象在创建后不久就会变得不可达，只有少数对象会存活较长时间。

它的大致流程是

1.先分配对象

默认情况下分配的对象，基本是放在了新生代中

但是对象内存占用较大的话，那么可能直接分配到老年代中

2.新生代垃圾回收

当伊甸区满了后，触发小范围的GC：

此时呢，就标记存活对象，

会从当前的伊甸区和S1中寻找存活对象

然后讲这些对象赋值到S2中，复制过程中，这些对象的年龄计数器+1

然后原来的伊甸区和S1中就会被清空，称为可使用状态

等到下一次伊甸区满了，进行GC的时候

那么就是轮换着来，比如，这次先使用S2作为标记区，S1作为存放区，然后进行复制

当这些存活对象中年龄计数器增加到一定程度的时候

那么此时，它们就会被移动到老年代。

当然除了这个计数器增长可以将对象上升到老年代

还有其它条件进行，判断，比如此时存活区中，所有对象大小超过一定比例，那么此时，不会等待某些对象进行年龄增长，而是让较大的年龄对象，直接晋升到老年代

还有一个情况，就是当某个对象，即使没有到达年龄上限，但此时，存活区容纳不下了，此时，也会将其对象晋升到老年代。

3.老年代垃圾回收

当老年代空间不足，或者堆中的元数据区空间不足，此时呢，就是进行对老年区垃圾回收

使用标记-清除或者标记-整理的方式进行清理垃圾。

这个分代回收的垃圾回收机制而言

1.它使用了不同的类型的算法，针对不同区域清理垃圾，使得整体效率变得高效

2.减少停顿时间

因为在新生代中，不断快速清理短命的对象

现代的垃圾回收器中，也是支持了并发和并行的方式进行清理垃圾

3.降低了内存碎片的风险，毕竟是采用复制算法的方式。

那么到这里，小编对于JVM的某些知识，就分享到这。