JVM堆栈溢出监测原理

来自玩Android网站上的一个提问： wanandroid.com/wenda/show/...

当我们递归调用Java方法时，很可能会出现StackOverflowError，我们会认为此时栈内存溢出了，那么这个栈内存溢出虚拟机是如何检测的呢？

是累加分配的内存与栈大小进行比较，还是有更好的方式呢？

下面是一种回答：

不是靠"累加分配大小做比较"，而是靠"访问受保护栈页面触发异常 + JVM 内部栈检查"来检测的。

分两层来看：操作系统层 和 JVM 层（以 HotSpot 为例）。

线程栈本质是 OS 提供的一块连续虚拟内存区域，JVM 只是使用它。

典型做法（不同 OS 实现略有差异）：

每个线程启动时 OS 会为其保留一块栈空间（如 1M、2M），其中一部分是真正可用的内存。
在栈的"尽头"会预留一小段"保护页（guard page）"：
1. 这块内存被标为不可访问；
2. 一旦程序继续向下生长，访问到这块区域，就会触发页面访问异常（如 segmentation fault / access violation）。

在 HotSpot 中，每次方法调用、局部变量分配时，都会通过所谓的 stack banging 机制在即将申请的栈空间中访问特定地址，以确保一旦越界就立刻触发 OS 的异常，而不是"悄悄越界"。

这一步就保证了：栈真的用到边界时，OS 一定会抛异常出来。

JVM 收到来自 OS 的栈溢出信号时，它知道是当前线程栈用完了，然后：

这里有两种情况：

从设计和实现上，简单做"累加计数"有一些问题：

要精确加总这些空间，代价和复杂度都很大，而且不一定精确。

所以实际实现是：

主检测方式：依赖操作系统的Guard Page（保护页）与 Page Fault（缺页异常）
辅助：JVM 在生成代码时通过 stack banging 确保不会"跨页直接越界"
有些 JVM 实现会在每次建新帧前做一些**"剩余栈估算检查"**，用于提前抛 StackOverflowError，减少真正触发 page fault 的次数，但核心仍是 guard page。

以 HotSpot 为例，它一般会把线程栈分成几段逻辑区域：

启动 JVM 时通过 -Xss 指定每个线程的栈大小，影响的是这块区域的总规模。

但具体的检测点、抛异常的逻辑，不靠简单"加减计数"，而是靠 guard page + OS 异常 + JVM 处理。