IO延迟引起的虚拟机故障排查

复制代码
vmware 虚拟机连上之后总感觉非常卡,查看CPU 内存资源使用率是正常的。
message 日志有cpu卡住的报错
NMI watchdog: BUG: soft lockup - CPU#8 stuck for 23s! [container-31451:45878]

下面分析是什么导致的服务器cpu卡住。

复制代码
1、打开prometheus,观察服务器IO 
	IO操作每秒占比(左下角的图)
	     node_disk_io_time_seconds_total:发现这个指标计算出的每秒IO占用时间,在服务器卡顿的时候,是100%,也就是IO存在高使用率的问题。这其实说明不了问题。但是这个服务器并不是IO密集型作业,服务器IO主要是业务系统日志,正常没有多大日志。
	每次读写IO耗时,下图右下角的图
	读和写都比较耗时。
复制代码
2、观察uptime 的load
uptime
load average: 12.35,10.20,8.83
卡顿时load比较高,我的CPU是16个processor,(参考值16*0.7),结合cpu占用发现CPU并不忙,上下文切换也不多。问题可能出在IO上。
3、观察iostat -xm 2
发现svctm 比较高。
反馈虚拟机平台人员,查看存储IO果然延迟高。平台反馈需要换新存储lan,问题解决
相关推荐
守护安静星空2 分钟前
ubuntu vscode 调试 at32f435vmt7
linux·vscode·ubuntu
集智飞行6 分钟前
禁用Ubuntu网卡的电源管理(Power Management)
linux·运维·ubuntu
可涵不会debug9 分钟前
五种IO模型
运维·服务器·网络
23.10 分钟前
【分析】HTTP请求端口错误诊断:404、502与连接拒绝的区别
网络·网络协议·http
Irissgwe12 分钟前
Linux进程信号
linux·服务器·开发语言·c++·linux进程信号
水木兰亭13 分钟前
多进程编程总结
linux·运维·服务器
梦想是造卫星16 分钟前
如何从零开始构建一个ros开发项目?
linux·ros开发
艾莉丝努力练剑17 分钟前
【Linux:文件 + 进程】理解IPC通信
linux·运维·服务器·开发语言·网络·c++·ide
sdszoe492217 分钟前
OSPF多区域基础实验1
网络·华为·ospf多区域实验
开开心心就好18 分钟前
安卓免费证件照制作软件,无广告弹窗
linux·运维·安全·pdf·迭代器模式·依赖倒置原则·1024程序员节