今天中午1点左右,测试同事跟我说有一台服务器挂掉了,查看业务日志,首先定位日志打印到13.07左右,日志不在打印,查看网络未发现突发流量,网络日志未发现攻击现象;日志未见异常;
查看阿里云提供的基础监控发现,IO 和 CPU在这个时间点突然陡增,同时内网流量爆增;但是查看微服务内部服务的调用日志未见明显日常。那线索到这里就断了。。
业务没有问题,那就开始怀疑系统基础服务;
来到 /var/log 查看 messages 日志,发现有些定时任务,刚好发现了一些端倪
时间点吻合,导致io飙升卡死的原因找到了,禁用dnf
bash
systemctl list-timers | grep dnf
systemctl stop dnf-makecache.timer
systemctl disable dnf-makecache.timer
dnf-makecache是软件包的更新任务,我们只在软件安装的时候启动即可,其他时候禁用它