ESXI虚拟机故障关机处理记录

告警内容为:

包含主机物理页面 100937959,但该页面已被调度为立即失效。为避免系统不稳定,已强制关闭虚拟机电源。

故障原因为:

主机 CPU / 内存子系统触发了可恢复的机器检查异常(MCE,Machine Check Exception),ESXi 内核检测到某一个物理内存页存在不可纠正的硬件错误,且该错误不会导致整个主机崩溃(PSOD 紫屏)。

ESXi 为了防止故障扩散、避免系统整体不稳定和数据损坏,会立即将这个故障内存页标记为 "立即失效 / 退役"。

恰好你的这台虚拟机正在占用这个故障物理内存页,ESXi 作为防护措施,直接强制关闭了该虚拟机,将故障影响范围隔离在单台 VM,而非整个宿主机。

可以在esxi界面看到故障告警(主机内存状态)

BMC也可以看到内存的紧急告警

处理方案:

更换故障内存(业务紧急,虚拟机可先直接拉起)

相关推荐
柏木乃一1 小时前
Linux线程(8)基于单例模式的线程池
linux·运维·服务器·c++·单例模式·操作系统·线程
liulilittle2 小时前
IP 溯源技术原理
服务器·网络·tcp/ip·ip·trace·通信·sy
kebidaixu2 小时前
VS Code安装 Remote - SSH 扩展
linux·服务器·ssh
zephyr052 小时前
TCP/IP协议族详解:数据在互联网中是如何“漂流”的?
服务器·网络·tcp/ip
爱学习的小囧2 小时前
VCF 9.0 操作对象与指标报告自动化教程
运维·服务器·算法·自动化·vmware·虚拟化
达宽科技2 小时前
教程 机器人线束通电检测怎么做?(二)
服务器·功能测试·机器人·汽车
tianshiyeben2 小时前
日志审计系统WGLOG介绍 - 怎么采集防火墙的日志
运维·服务器·网络·日志审计
高高山上立2 小时前
HP Anyware License Server 26.01 Linux 管理员指南
运维·服务器·hp anyware
从入门到放弃-咖啡豆2 小时前
Alibaba Cloud Linux 部署.NET 8 环境 项目运行
linux·服务器·.net·.net core