物理服务器-内存损坏导致的操作系统启动异常问题的处理

文章目录


前言

记录下一台曙光机器由于内存损坏导致重启无法进入操作系统问题,由于问题比较急,所以直接拔掉了对应的内存,问题得到解决。

备注:机器是五年前的,时间上太久了,好多东西都是现挖现查留存资料的,但是有一些点没有被记录覆盖到,搞的很吃力。


一、问题的发现

一台业务节点由于日志/var/log/分区满了,导致系统异常,清理出来空间之后恢复相关服务,但是感觉还是不太对劲,决定重启一下恢复环境。重启后在调试区shell访问,好久了都不好使,感觉可能启动失败了。

二、处理步骤

1.进机房插显示器查看启动进展

刚开始是卡在启动进度条的79%,重启几次之后能选择内核了,但是卡在了小白横杠的界面。而且键盘键入没有反应,按F1也没反应。已经开始慌了,害怕系统盘凉了,上面的配置文件和数据库数据都没有备份。


2.使用IPMI查看机器状态

借了一个调试本,插上网线之后配置网络,访问IPMI页面,发现有内存和CPU告警。

CPU告警图片

内存告警图片

硬件监控-内存信息

硬件监控-CPU信息

CPU 0 的温度是0度的,现场同事判断是损坏的内存导致CPU异常。

3.拔掉异常内存及同组的双通道内存

双CPU的时候,由8内存变为6内存,是对应名字的内存都拔掉;

异常的内存是CPU1 DIMMD0,所以需要拔掉CPU1 DIMMD0和CPU0 DIMMD0。

拔掉之后上电重启机器。


4.启动成功

启动成功,到调试区用shell可以成功登陆。上面的业务也都自动恢复了。

总结

重启大法好,但是前提是业务数据和配置文件都备份好了,有充足的把握在操作系统受损的情况下更换新的系统盘之后还能迅速拉起服务,恢复环境。

相关推荐
ChoSeitaku7 分钟前
NO.2|proto3语法|消息类型|通讯录|文件读取|enum类型
java·服务器·前端
MinterFusion33 分钟前
如何在开放麒麟(openKylin)下安装FTP服务器(v0.1.0)
运维·服务器·网络·vsftpd·开放麒麟·明德融创·openkylin
xlq223221 小时前
30.进程池IPC
linux·运维·服务器
nuomigege1 小时前
beagleboneblack刷入官方IOT镜像后无法运行nodered问题的处理
linux·运维·服务器
落叶花开又一年2 小时前
检验检测机构资质认定远程评审工作程序
linux·运维·服务器
wanhengidc2 小时前
《三国志异闻录》搬砖新游戏 云手机
运维·服务器·数据库·游戏·智能手机
旺仔.2913 小时前
僵死进程及Linux文件操作 详解
linux·运维·服务器
于慨4 小时前
tauri
java·服务器·前端
十巷无终4 小时前
Kali Virtual Machines(虚拟机镜像)安装后问题及解决办法
linux·运维·服务器
你有按下913的勇气吗4 小时前
【Agent,RAG,Transform】
linux·运维·服务器