问题记录:云平台计算节点内存故障,热迁移失败导致系统重启。

现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。

排查过程:

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

查看回显发现包含reschedule HA任务

reschedule这个是HA任务 在执行nova instance-ha-events vmid查询

回显状态是102 代表的就是主机原因触发的HA

问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。

相关推荐
袁煦丞 cpolar内网穿透实验室2 小时前
Blackbox Exporter告别用户投诉!从外部揪出服务断连问题: cpolar 内网穿透实验室第 701 个成功挑战
运维·服务器·远程工作·内网穿透·cpolar
wdfk_prog2 小时前
[Linux]学习笔记系列 -- [drivers][gpio[[gpiolib]
linux·笔记·学习
bloglin999992 小时前
ubuntu系使用root用户登录显示密码错误
linux·运维·ubuntu
ccino .2 小时前
【SSRF漏洞及自动化扫描插件】
运维·自动化
70asunflower2 小时前
[特殊字符] Flameshot 完全指南:Ubuntu 下的终极截图工具
linux·运维·ubuntu
HIT_Weston2 小时前
118、【Ubuntu】【Hugo】首页板块配置:Template Lookup Order(.Kind)
linux·ubuntu·kind
千航@abc2 小时前
Win10/Win11 DCOM服务器进程启动器 CPU 占用过高解决方法
运维·安全·病毒·window10·window11·dcom进程·系统进程资源占用高
API开发2 小时前
CentOS 单独安装Docker Compose v2
linux·docker·centos·docker compose
hwj运维之路2 小时前
Docker面试题汇总系列
运维·docker·云原生·容器