记一次服务器异常宕机导致的系统异常

1.事件背景

某部门应急演练,服务器异常关机未提前通知各业务系统。

2.事件经过

服务器断电后,服务器宕机重启,各系统都受到影响,无法访问,现场也不知道发生了什么情况,以为是业务系统本身出故障了,实际上业务系统的信息管理员也不知道此事,虽然服务器重启比较快,但是各业务系统网站有些没有自动启动,需要手动重启。涉及很多台服务器,特别是部署的java应用,都需要重新启动。

1.应用网站应用程序池重启。

2.网站重启

异常断电后,服务器重启后磁盘IO异常,时间持续影响几个小时。以本人个人电脑为例截图,类似下图,磁盘的写入平均延迟异常。正常的IO延迟都是毫秒级,基本都是个位数,当时延迟达到了几千毫秒,3000~7000多毫秒,这在高并发写入的场景下是无法接受的。后再次彻底重启应用服务器,磁盘IO恢复正常,各交互系统上传数据正常。

3.事件总结

服务器不同于个人电脑,承载的业务很庞杂,异常重启会导致各种各样的问题,还是按正常步骤重启服务器。异常断电可能会导致磁盘IO异常。

相关推荐
sxgzzn29 分钟前
光伏数智化综合平台:让光伏电站运维更智能、更高效
运维
乌托邦的逃亡者2 小时前
Linux中如何检测IP冲突
linux·运维·tcp/ip
一曦的后花园2 小时前
linux搭建promethes并对接node-exporter指标
linux·运维·服务器
乌托邦的逃亡者2 小时前
CentOS/Openeuler主机中,为一个网卡设置多个IP地址
linux·运维·网络·tcp/ip·centos
拾贰_C3 小时前
【OpenClaw | openai | QQ】 配置QQ qot机器人
运维·人工智能·ubuntu·面试·prompt
桌面运维家3 小时前
服务器进程异常监控:快速定位与排障实战指南
运维·服务器
@CLoudbays_Martin113 小时前
UniApp是否能够接入SDK游戏盾呢?
服务器·网络·网络协议·tcp/ip·安全
风曦Kisaki4 小时前
# Linux Shell 编程入门 Day02:条件测试、if 判断、循环与随机数
linux·运维·chrome
木雷坞4 小时前
视觉算法环境 Docker 镜像拉取失败排查
运维·人工智能·docker·容器
郝亚军4 小时前
ubuntu 22.04如何安装libmodbus
运维·服务器·ubuntu