问题记录:云平台计算节点内存故障,热迁移失败导致系统重启。

现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。

排查过程:

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

查看回显发现包含reschedule HA任务

reschedule这个是HA任务 在执行nova instance-ha-events vmid查询

回显状态是102 代表的就是主机原因触发的HA

问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。

相关推荐
袁袁袁袁满2 小时前
Linux云服务器如何判断系统是否发生过异常断电?
linux·运维·服务器
一只鹿鹿鹿2 小时前
智慧水利一体化建设方案
大数据·运维·开发语言·数据库·物联网
学不完的2 小时前
haproxy
linux·运维·https·负载均衡·haproxy
LCG元2 小时前
STM32MP1边缘网关:Linux系统下Modbus转MQTT协议转换实战
linux·stm32·嵌入式硬件
cyber_两只龙宝3 小时前
Nginx--企业高性能web服务器高级配置详解
linux·运维·nginx·云原生
如若1235 小时前
AutoDL云服务器 NVIDIA 570驱动 EGL渲染修复全记录
运维·服务器·python
i建模5 小时前
Omarchy设置防火墙
linux·运维
晚秋大魔王5 小时前
泰拉瑞亚手机版服务器部署
运维·服务器·泰拉瑞亚
敲代码的哈吉蜂5 小时前
高可用集群Keepalived
运维·服务器·网络·数据库
S-码农5 小时前
Linux ——条件变量
linux·开发语言