问题记录:云平台计算节点内存故障,热迁移失败导致系统重启。

现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。

排查过程:

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

查看回显发现包含reschedule HA任务

reschedule这个是HA任务 在执行nova instance-ha-events vmid查询

回显状态是102 代表的就是主机原因触发的HA

问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。

相关推荐
大树884 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠4 小时前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质5 小时前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
bush45 小时前
嵌入式linux学习记录十四、术语
linux·嵌入式
载数而行5205 小时前
Linux 11 动态监控指令top
linux
Inhand陈工6 小时前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智6 小时前
ARP代理--工作原理
运维·网络·arp·arp代理
不会C语言的男孩6 小时前
Linux 系统编程 · 第 8 章:进程基础
linux·c语言
shushangyun_6 小时前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
古城小栈6 小时前
Unix 与 Linux 异同小叙
linux·服务器·unix