物理服务器-内存损坏导致的操作系统启动异常问题的处理

文章目录


前言

记录下一台曙光机器由于内存损坏导致重启无法进入操作系统问题,由于问题比较急,所以直接拔掉了对应的内存,问题得到解决。

备注:机器是五年前的,时间上太久了,好多东西都是现挖现查留存资料的,但是有一些点没有被记录覆盖到,搞的很吃力。


一、问题的发现

一台业务节点由于日志/var/log/分区满了,导致系统异常,清理出来空间之后恢复相关服务,但是感觉还是不太对劲,决定重启一下恢复环境。重启后在调试区shell访问,好久了都不好使,感觉可能启动失败了。

二、处理步骤

1.进机房插显示器查看启动进展

刚开始是卡在启动进度条的79%,重启几次之后能选择内核了,但是卡在了小白横杠的界面。而且键盘键入没有反应,按F1也没反应。已经开始慌了,害怕系统盘凉了,上面的配置文件和数据库数据都没有备份。


2.使用IPMI查看机器状态

借了一个调试本,插上网线之后配置网络,访问IPMI页面,发现有内存和CPU告警。

CPU告警图片

内存告警图片

硬件监控-内存信息

硬件监控-CPU信息

CPU 0 的温度是0度的,现场同事判断是损坏的内存导致CPU异常。

3.拔掉异常内存及同组的双通道内存

双CPU的时候,由8内存变为6内存,是对应名字的内存都拔掉;

异常的内存是CPU1 DIMMD0,所以需要拔掉CPU1 DIMMD0和CPU0 DIMMD0。

拔掉之后上电重启机器。


4.启动成功

启动成功,到调试区用shell可以成功登陆。上面的业务也都自动恢复了。

总结

重启大法好,但是前提是业务数据和配置文件都备份好了,有充足的把握在操作系统受损的情况下更换新的系统盘之后还能迅速拉起服务,恢复环境。

相关推荐
cui_ruicheng12 小时前
Linux网络编程(五):基于UDP实现DictServer
linux·服务器·网络·udp
辣椒思密达12 小时前
住宅IP纯净度评估方法:黑名单、风险评分与历史行为检测
运维·服务器·网络
Terasic友晶科技12 小时前
答疑解惑|为DE25-Nano开发板配置Linux kernel时.config文件没有起作用是什么原因?
linux·服务器·fpga开发·linux kernel·de25-nano
程序员榴莲13 小时前
网络编程入门 Python Socket 实现一个简单的用户认证系统
服务器·网络·python
ZStack开发者社区13 小时前
全球化2.0 | ZStack亮相印尼云计算与数据中心大会 以新一代云底座助力数字印尼建设
服务器·云计算·gpu算力
DFT计算杂谈13 小时前
VASP新手入门: IVDW 色散修正参数
linux·运维·服务器·python·算法
programhelp_14 小时前
Google 2026 New Grad SDE VO 三轮面试详解 | 含Behavioral、Coding、Design
java·服务器·数据库
樱桃花下的小猫14 小时前
腐蚀Rust-服务器插件模组教程
服务器·新手友好·云鸢互联·零门槛一键开服·腐蚀rust
青梅橘子皮14 小时前
Linux---开发工具(2)(makefile、进度条、git、gdb)
linux·运维·服务器
Ether IC Verifier14 小时前
TCP/IP协议握手原理详解——结合以太网连接过程
服务器·网络·数据库·网络协议·tcp/ip