现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。
排查过程:
- 登录控制节点后台
登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123
- 执行下面命令查询虚拟机的任务记录
nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID
- 登录控制节点后台
登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:
- 执行下面命令查询虚拟机的任务记录
nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID
查看回显发现包含reschedule HA任务
reschedule这个是HA任务 在执行nova instance-ha-events vmid查询
回显状态是102 代表的就是主机原因触发的HA
问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。