IO延迟引起的虚拟机故障排查

复制代码
vmware 虚拟机连上之后总感觉非常卡,查看CPU 内存资源使用率是正常的。
message 日志有cpu卡住的报错
NMI watchdog: BUG: soft lockup - CPU#8 stuck for 23s! [container-31451:45878]

下面分析是什么导致的服务器cpu卡住。

复制代码
1、打开prometheus,观察服务器IO 
	IO操作每秒占比(左下角的图)
	     node_disk_io_time_seconds_total:发现这个指标计算出的每秒IO占用时间,在服务器卡顿的时候,是100%,也就是IO存在高使用率的问题。这其实说明不了问题。但是这个服务器并不是IO密集型作业,服务器IO主要是业务系统日志,正常没有多大日志。
	每次读写IO耗时,下图右下角的图
	读和写都比较耗时。
复制代码
2、观察uptime 的load
uptime
load average: 12.35,10.20,8.83
卡顿时load比较高,我的CPU是16个processor,(参考值16*0.7),结合cpu占用发现CPU并不忙,上下文切换也不多。问题可能出在IO上。
3、观察iostat -xm 2
发现svctm 比较高。
反馈虚拟机平台人员,查看存储IO果然延迟高。平台反馈需要换新存储lan,问题解决
相关推荐
Li-Yongjun21 分钟前
深度解析 Linux 内核参数 net.ipv4.tcp_rmem:优化网络性能的关键
linux·网络·tcp/ip
藥瓿亭23 分钟前
K8S认证|CKS题库+答案| 10. Trivy 扫描镜像安全漏洞
linux·运维·服务器·云原生·容器·kubernetes·cks
枷锁—sha37 分钟前
【DVWA系列】——xss(Reflected)——Medium详细教程
前端·网络·web安全·网络安全·xss
不像程序员的程序媛1 小时前
http接口莫名奇妙返回body空白
网络·网络协议·http
程序员JerrySUN1 小时前
Linux 内核内存管理子系统全面解析与体系构建
java·linux·运维
晴天¥2 小时前
第一章-数据通信网络基础
网络
rui锐rui2 小时前
大模型模型部署和暴露接口
linux·运维·服务器
XMAIPC_Robot2 小时前
RK3568/RK3588 KVM系统虚拟化解决方案
网络·fpga开发·边缘计算
孙克旭_2 小时前
day030-Shell自动化编程-函数
linux·运维·自动化
IT葛大侠2 小时前
OSPF域内路由
运维·网络·计算机网络