服务器死机/无故宕机排查思路/服务器起不来

1、查看服务器型号

dmidecode -t system

dmidecode | grep 'Product Name'

2、风扇异响:查看BMC,坏了一个风扇其他的所有的风扇会全速转。

3、服务器亮红灯

红灯就是 故障告警 不一定是啥··需要查看BMC口日志。这种就是看bmc日志·· 会有打印的

-问题现象:服务器系统盘亮红灯

-问题原因:系统盘磁盘脚线损坏(系统盘做了raid 1)

-解决方案:①服务器器无法通过control + R进入raid卡页面,通过bios进入可以查看raid情况,显示Need Attention。更换磁盘,磁盘自动重构raid。红灯变黄灯再变绿灯,重构完成,业务恢复正常。

在这里插入图片描述

4、死机问题:

1、确认bmc日志;是否有硬件异常告警;硬件导致死机。

2、查看/var/log/message 日志; 搜关键字command line 是开机时打印,往前即为死机前日志。;

3、主节点optimizi-memory.sh会打印内存回收,若看到每分钟都有drop_caches日志,那说明是内存不足导致死机。 确认该节点部署服务数是否合理、是否技战法导致内存占用问题。

4、未确认的死机问题;需要收集 /var/log/message* 及 /var/log/sa/ 下所有日志,打包保存。

5、重启看系统启动报错。能否进入系统。

messages文件在/var/log/下

/var/log/messages:几乎所有的开机系统发生的错误都会在此记录。

例如:

我的/var/log/下的messages日志文件有

ll|grep messages

-rw------- 1 root root 150 May 17 03:20 messages

-rw------- 1 root root 1396 Apr 25 23:48 messages-20150426

-rw------- 1 root root 1017 Apr 28 17:16 messages-20150503

-rw------- 1 root root 2786 May 6 17:15 messages-20150510

-rw------- 1 root root 972 May 17 01:02 messages-20150517

根据你的需要查看相应的日志

关键字:Command line

还可以看 /usr/kib/cloudmanager/components/lark/log/opt.log

5、自检不通过

可能原因:

①卡内存自检不通过,把内存拔插下

相关推荐
芝士雪豹只抽瑞克五2 分钟前
HAProxy 七层负载均衡器笔记
运维·笔记·负载均衡
欧云服务器2 分钟前
宝塔邮局磁盘满了怎么清理?linux磁盘清理教程
运维·服务器
Purgatory0016 分钟前
CSS 访问服务器
服务器·前端·css
觅特科技-互站6 分钟前
告别手动微调Prompt:DevOps用陌讯Skills重构AI运维工作流
运维·prompt·线性回归·kmeans·devops
科技块儿10 分钟前
开发者需要为网站或应用集成IP归属地显示功能,如何选择可靠的数据源?
服务器·网络·数据库·tcp/ip·edge·ip
天空属于哈夫克318 分钟前
基于 Webhook 的企业微信外部群自动化推送集成
运维·自动化·企业微信
茶乡浪子19 分钟前
实战H3C单环RRPP应用配置
运维·服务器·网络
TG_yunshuguoji20 分钟前
阿里云代理商:2026 年阿里云国际站上云接入指南
服务器·阿里云·云计算
上海合宙LuatOS21 分钟前
LuatOS核心库API——【iperf 】吞吐量测试
linux·运维·服务器·单片机·嵌入式硬件·物联网·硬件工程
乂爻yiyao21 分钟前
Minecraft 服务端 JVM 调优指南(低资源 / 非专用服务器专用)
运维·服务器·jvm