问题记录:云平台计算节点内存故障,热迁移失败导致系统重启。

现象描述:云平台计算节点有条物理内存条ECC报错,节点运行正常,未触发HA迁移动作,为保证平台运行稳定,所以手动热迁移该计算节点上的虚拟机,部分虚拟机迁移失败,虽然任务失败,但是虚拟机却正常迁移至正常节点。

排查过程:

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1 ,默认密码:FusionSphere123

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

  1. 登录控制节点后台

登录之后需要导入环境变量,执行:source set_env ,选择1,输入默认密码:

  1. 执行下面命令查询虚拟机的任务记录

nova instance-action-list vm_id vm-id替换为迁移失败的虚拟机的ID

查看回显发现包含reschedule HA任务

reschedule这个是HA任务 在执行nova instance-ha-events vmid查询

回显状态是102 代表的就是主机原因触发的HA

问题原因:虚拟机热迁移过程中访问到了故障内存所以热迁失败,触发了HA。

相关推荐
阿常呓语5 分钟前
Linux命令 date详解
linux·运维·服务器·linux command
xlp666hub10 分钟前
【Linux驱动实战】:最简单的内核模块
linux·面试
虾..35 分钟前
Linux HTTP服务器
linux·服务器·http
Java小白笔记39 分钟前
Nginx中配置IP白名单动态刷新
运维·tcp/ip·nginx
小尔¥1 小时前
Nginx性能优化与监控
运维·nginx·性能优化
margu_1681 小时前
【Docker】nscenter命令详解
运维·docker·容器
ckm紫韵2 小时前
影刀自动化工作流RPA采集教程
运维·自动化·rpa
REDcker2 小时前
Linux Core Dump 配置与分析指南
linux·运维·服务器
2401_865854882 小时前
腾讯云对象存储 COS:海量数据时代的智能存储新选择
云计算·腾讯云
IMPYLH2 小时前
Linux 的 chcon 命令
linux·运维·服务器