记一次服务器异常宕机导致的系统异常

1.事件背景

某部门应急演练,服务器异常关机未提前通知各业务系统。

2.事件经过

服务器断电后,服务器宕机重启,各系统都受到影响,无法访问,现场也不知道发生了什么情况,以为是业务系统本身出故障了,实际上业务系统的信息管理员也不知道此事,虽然服务器重启比较快,但是各业务系统网站有些没有自动启动,需要手动重启。涉及很多台服务器,特别是部署的java应用,都需要重新启动。

1.应用网站应用程序池重启。

2.网站重启

异常断电后,服务器重启后磁盘IO异常,时间持续影响几个小时。以本人个人电脑为例截图,类似下图,磁盘的写入平均延迟异常。正常的IO延迟都是毫秒级,基本都是个位数,当时延迟达到了几千毫秒,3000~7000多毫秒,这在高并发写入的场景下是无法接受的。后再次彻底重启应用服务器,磁盘IO恢复正常,各交互系统上传数据正常。

3.事件总结

服务器不同于个人电脑,承载的业务很庞杂,异常重启会导致各种各样的问题,还是按正常步骤重启服务器。异常断电可能会导致磁盘IO异常。

相关推荐
野犬寒鸦1 小时前
从零起步学习并发编程 || 第六章:ReentrantLock与synchronized 的辨析及运用
java·服务器·数据库·后端·学习·算法
HalvmånEver1 小时前
Linux:线程互斥
java·linux·运维
JY.yuyu1 小时前
Docker常用命令——数据卷管理 / 端口映射 / 容器互联
运维·docker·容器
alice--小文子2 小时前
cursor-mcp工具使用
java·服务器·前端
lpruoyu2 小时前
【Docker进阶-06】docker-compose & docker swarm
运维·docker·容器
China_Yanhy3 小时前
入职 Web3 运维日记 · 第 8 日:黑暗森林 —— 对抗 MEV 机器人的“三明治攻击”
运维·机器人·web3
艾莉丝努力练剑3 小时前
hixl vs NCCL:昇腾生态通信库的独特优势分析
运维·c++·人工智能·cann
酉鬼女又兒3 小时前
每天一个Linux命令_printf
linux·运维·服务器
翼龙云_cloud3 小时前
国际云代理商:2026年国际云注册风控升级实战指南 8 大平台无卡解决方案对比
服务器·阿里云·云计算
虾说羊3 小时前
docker容器化部署项目流程
运维·docker·容器