JVM基本机制 - 技术栈

JVM内存划分

JVM也就是Java进程，这个进程一旦跑起来之后机会向操作系统这里申请一大片空间，JVM会进一步对这个空间进行划分，划分成不同的区域，从而每个区域都有不同的功能作用。

1.堆（heap）

整个内存区域中，最大的区域，放的是代码中new出来的对象（成员变量）。

2.栈（stack）

JVM虚拟机栈：保存了方法的调用关系。

本地方法栈：方法的调用关系，使用栈来维护。

3.元数据区

以前叫方法区，Java8改名。

存放类对象：代码中写的每个类，在JVM上运行的时候，都会有对于类对象。

方法相关信息：类有一些方法，每个方法都代表了一系列指令合集。

常量池：字面常量值。

4.程序计数器

内存区域中最小的区域，保存了当前要执行的下一条指令（JVM字节码）的地址，这个地址就是元数据区里的一个地址。

基本原则：

一个对象在那个区域，取决于对应变量的形态：

局部变量：堆上

成员变量：堆上

静态成员变量：方法区/元数据区

上述四个区域中，堆和元数据区，是整个进程只有一份，栈和程序计数器，是每个线程都有一份的。

类加载过程

编写java代码后硬盘上存储的是.java文件，一个java进程要运行起来（执行cpu指令，都是通过字节码让JVM翻译出来），就需要把.java文件变成.class文件，加载到内存中，得到类对象。

类加载的几个环节：

1.加载：在硬盘上，找到对应的.class文件，读取文件内容。

2.验证：检查.class里的内容，是否符合要求（.class文件格式在java的官方文档中有明确定义）。

3.准备：给类对象分配内存空间（类加载最终得到的就是类对象），会把元数据区中的这块空间全部填充成0。

4.解析：针对字符串常量来初始化，把刚才.class文件中的常量内容取出来，放到元数据区。

5.初始化：针对类对象进行初始化，给静态成员进行初始化，执行静态代码块。

后续代码就可以使用这个类对象，创建实例，或者使用里面的静态成员了。

双亲委派模型

描述了JVM加载.class文件过程中寻找文件的过程。双亲委派模型出现在类加载的第一步------加载，根据代码中给出的全限定类名找到对应的.class文件。

类加载器：在JVM中包含的一个特定的模块/类，这个类负责完成后续的加载工作。

JVM中内置了三个类加载器，负责加载不同的类。

BootstrapClassLoader：负责加载标准库的类。（爷爷）

ExtentionClassLoader：负责加载JVM拓展库的类。（父亲）

ApplicationClassLoader：负责加载第三方库的类和程序员自己写的类。（儿子）

此处的"父子关系"不是通过继承表示的，而是通过类加载器中存在一个"parent"这样的字段，指向自己的父亲。类似于二叉树的三叉实现形式。

加载过程

加载在全限定类名ava.Test中，自己写的一个类

***1.工作从ApplicationClassLoader开始进行，*它不会立即去搜索第三方库的相关目录，而是把任务交给自己的父亲进行处理。

***2.工作来到了ExtentionClassLoader，*它也不会立即去搜索自己负责的拓展库的目录，也是把任务交给自己的父亲去处理。

***3.工作最后到了BootstrapClassLoader,*BootstrapClassLoader的parent指向null，只能自己去处理，BootstrapClassLoader尝试在标准库的路径中搜索上述类，如果这个类在标准库中找到了，于是搜索过程就完成了，类加载器负责打开文件，读取文件等后续操作就行了。如果没找到，任务就丢给自己的儿子去处理。

***4.工作回到了ExtentionClassLoader，*此时搜索拓展库对应目录，找到该目录，就由当前类加载器负责打开文件，读取文件等后续操作，如果没找到，继续还给儿子去处理。

***5.工作目录回到ApplicationClassLoader,*此时搜索第三方库/用户项目代码目录，找到了，也是由当前类加载器负责处理。没找到则会抛出异常ClassNotFoundException。

双亲委派模型，拿到任务后先交给父亲处理，处理不了再自己处理。

GC垃圾回收机制

GC回收的是"内存"，更准确的来说是堆上的内存。每次回收都是一个完整的对象，不能回收帮对象（一个对象有几个成员就要全部回收，不能只回收部分）。

找到需要回收的垃圾（不被使用的对象）。

一个对象的创建时机是明确的，但什么时候不再使用，往往是模糊的，在编程中一定要确保代码中使用的每个对象都得是有效的，不能出现"提前释放 "的情况。因此判断一个对象是否是垃圾，判定的方式是比较保守的，判定某个对象，是否存在引用指向它。

使用对象都是通过引用的方式来使用的，如果没有引用指向这个对象，意味着这个对象注定无法在代码中被使用。如果没有引用指向的对象就可以视为垃圾了。

对于上述代码来说，修改了m的指向，此时new Main()的对象就没有引用指向了，这个对象就可以被认为是垃圾。

判定某个对象是否有引用指向，这里介绍两种方法：

1.引用计数（PHP/PPython的方案）

在对象本体上引入计数器，给引用赋值之前，先根据引用找到对象，并更新计数器，判断计数器是否是0。

引入计数为0，此时对象就是垃圾。

缺陷：

1.额外消耗存储空间。如果对象比较大，浪费一些空间可以忽略，如果对象比较小，或者对象数目比较多，空间浪费的就多了。

2.存在循环引用的问题。

java 复制代码

class Test{
           Test t;
      }
Test a = new Test();
Test b = new Test();
     a.t = b;
     b.t = a;

**此时两个引用互相赋值，这两个对象相互指向对方，导致两个对象的引用计数都为1，你外部的代码无法访问这两个对象，**这便是循环引用问题。

2.可达性分析(JVM采取的方案)

解决了空间的问题，也解决了循环引用的问题，但是付出了时间上的代价。

遍历

JVM把对象之间的引用理解为一个"树形结构"，JVM就会不停的遍历这样的结构，把所有能够遍历访问到的对象标记成可达，剩下的就是不可达。这个树形结构在写代码的时候，把类定义好，对象实例化好后，这样的树形结构就已经存在了。在java的代码中：

栈上的局部变量，引用类型的，就都是GC Root,包括常量池中引用的对象，方法中的静态成员。会有很多的树形结构，JVM会周期性的对所有的树进行遍历，不停的标记可达，也不停的把不可达的对象回收掉。由于可达性分析需要一定的时间，java的垃圾回收没办法做到"实时性"，JVM提供了一组专门的负责GC的线程，不停的扫描工作。

释放对应的内存。

1.标记清除

直接把标记为垃圾的对象对应的内存释放掉，被释放掉的内存其他代码可以反复利用。

这样的做法有会存在"内存碎片"问题，空闲的内存被分成一个个的碎片，后续很难申请到大的内存。申请的内存都是要申请连续内存空间的。

2.复制算法

将可用内存按容量划分为大小相等的两块，每次只使用其中一块。当这一块的内存用完了，就将还存活着的对象复制到另外一块上面，通过拷贝将不需要释放的内存单独存放到另一片空间中，解决了内存碎片的问题，带来了浪费更多空间的问题，如果保存的对象比较多，复制的时间开销也比较大。

3.标记-整理

标记需要回收的垃圾，将标记对象删除，然后将存活对象移动到一起。解决了内存碎片化的问题和空间利用率的问题。但是整个算法时间开销比较大。

4.分代回收(重要)

上面3个方案只是铺垫，JVM中实际的方案是综合上面的方案，提出的更复杂的机制。这个机制是通过对象的年龄讨论的，GC会有一组线程进行周期性扫描，某个对象在经历一轮GC后还存在没有被标记为垃圾年龄就+1：

现在再来看堆区里面分为了很多区域：

Eden(伊甸区)：新创建的对象都放在这个区，大部分对象的生命周期都是比较短的，第一轮GC到达的时候就会成为垃圾，只有少数对象能活过第一轮GC。

S0(生存区)：活下来的对象通过复制算法，进入生存区。由于活下来的对象很少，生存区空间不需要很大。

s1(生存区)：S0-S1,每经历一轮GC扫描，生存区就会淘汰一批对象，剩下的对象通过复制算法进入另一个生存区。

Old区(老年代)：某些经历了很多了GC没有成为垃圾，就会进入老年代（复制算法）。

老年代的对象也是要进行GC扫描的，但老年代生命周期比较长，就可以降低GC扫描频率。