服务器死机/无故宕机排查思路/服务器起不来

1、查看服务器型号

dmidecode -t system

dmidecode | grep 'Product Name'

2、风扇异响:查看BMC,坏了一个风扇其他的所有的风扇会全速转。

3、服务器亮红灯

红灯就是 故障告警 不一定是啥··需要查看BMC口日志。这种就是看bmc日志·· 会有打印的

-问题现象:服务器系统盘亮红灯

-问题原因:系统盘磁盘脚线损坏(系统盘做了raid 1)

-解决方案:①服务器器无法通过control + R进入raid卡页面,通过bios进入可以查看raid情况,显示Need Attention。更换磁盘,磁盘自动重构raid。红灯变黄灯再变绿灯,重构完成,业务恢复正常。

在这里插入图片描述

4、死机问题:

1、确认bmc日志;是否有硬件异常告警;硬件导致死机。

2、查看/var/log/message 日志; 搜关键字command line 是开机时打印,往前即为死机前日志。;

3、主节点optimizi-memory.sh会打印内存回收,若看到每分钟都有drop_caches日志,那说明是内存不足导致死机。 确认该节点部署服务数是否合理、是否技战法导致内存占用问题。

4、未确认的死机问题;需要收集 /var/log/message* 及 /var/log/sa/ 下所有日志,打包保存。

5、重启看系统启动报错。能否进入系统。

messages文件在/var/log/下

/var/log/messages:几乎所有的开机系统发生的错误都会在此记录。

例如:

我的/var/log/下的messages日志文件有

ll|grep messages

-rw------- 1 root root 150 May 17 03:20 messages

-rw------- 1 root root 1396 Apr 25 23:48 messages-20150426

-rw------- 1 root root 1017 Apr 28 17:16 messages-20150503

-rw------- 1 root root 2786 May 6 17:15 messages-20150510

-rw------- 1 root root 972 May 17 01:02 messages-20150517

根据你的需要查看相应的日志

关键字:Command line

还可以看 /usr/kib/cloudmanager/components/lark/log/opt.log

5、自检不通过

可能原因:

①卡内存自检不通过,把内存拔插下

相关推荐
文静小土豆1 小时前
Rocky Linux 二进制 安装K8S-1.35.0高可用集群
linux·运维·kubernetes
小技工丨1 小时前
华为TaiShan 200 2280 ARM服务器虚拟化部署完整指南
运维·服务器·arm开发
weixin_430750933 小时前
OpenMediaVault debian Linux安装配置企业私有网盘(三) 静态ip地址配置
linux·服务器·debian·nas·网络存储系统
403240733 小时前
[Jetson/Ubuntu 22.04] 解决挂载 exFAT 硬盘报错 “unknown filesystem type“ 及只读权限问题的终极指南
linux·运维·ubuntu
零意@3 小时前
debian如何把新编译的内核镜像替换原来的内核
运维·debian·更新内核版本·linux内核版本更新·debian更新内核
Love丶伊卡洛斯3 小时前
Ubuntu 部署 STUN服务端
linux·运维·ubuntu
有毒的教程5 小时前
SaltStack 开源自动化运维工具详细介绍
运维·开源·saltstack
大房身镇、王师傅5 小时前
【VirtualBox】VirtualBox 7.1.6 RockyLinux10 配置增强功能 设置共享目录
运维·服务器·virtualbox·rockylinux10
betazhou5 小时前
rsync使用案例分析
linux·运维·服务器·rsync·同步数据
SmartBrain6 小时前
Agent 知识总结
服务器·数据库·笔记