告警内容为:
包含主机物理页面 100937959,但该页面已被调度为立即失效。为避免系统不稳定,已强制关闭虚拟机电源。

故障原因为:
主机 CPU / 内存子系统触发了可恢复的机器检查异常(MCE,Machine Check Exception),ESXi 内核检测到某一个物理内存页存在不可纠正的硬件错误,且该错误不会导致整个主机崩溃(PSOD 紫屏)。
ESXi 为了防止故障扩散、避免系统整体不稳定和数据损坏,会立即将这个故障内存页标记为 "立即失效 / 退役"。
恰好你的这台虚拟机正在占用这个故障物理内存页,ESXi 作为防护措施,直接强制关闭了该虚拟机,将故障影响范围隔离在单台 VM,而非整个宿主机。
可以在esxi界面看到故障告警(主机内存状态)

BMC也可以看到内存的紧急告警
处理方案:
更换故障内存(业务紧急,虚拟机可先直接拉起)