问题记录:云平台计算节点内存故障,热迁移失败导致系统重启。

现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。

排查过程:

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

查看回显发现包含reschedule HA任务

reschedule这个是HA任务 在执行nova instance-ha-events vmid查询

回显状态是102 代表的就是主机原因触发的HA

问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。

相关推荐
航Hang*2 小时前
Windows Server 配置与管理——第3章:文件系统管理
运维·服务器·windows·vmware
lifewange2 小时前
Linux ps 进程查看命令详解
linux·运维·服务器
功德+n2 小时前
Linux下安装与配置Docker完整详细步骤
linux·运维·服务器·开发语言·docker·centos
左手厨刀右手茼蒿3 小时前
Linux 内核中的块设备驱动:从原理到实践
linux·嵌入式·系统内核
杨云龙UP3 小时前
从0到1快速学会Linux操作系统(基础),这一篇就够了!
linux·运维·服务器·学习·ubuntu·centos·ssh
HXQ_晴天3 小时前
Ubuntu 设置中文输入法
linux·运维·ubuntu
Dovis(誓平步青云)3 小时前
《Linux 信号入门:搞懂 “进程通信的紧急电话” 到底怎么用(初篇)》
linux·运维·服务器
左手厨刀右手茼蒿3 小时前
Linux 内核中的模块机制:从加载到卸载
linux·嵌入式·系统内核
0vvv03 小时前
删除wsl环境下的Ubuntu系统
linux·运维·ubuntu