IO延迟引起的虚拟机故障排查

复制代码
vmware 虚拟机连上之后总感觉非常卡,查看CPU 内存资源使用率是正常的。
message 日志有cpu卡住的报错
NMI watchdog: BUG: soft lockup - CPU#8 stuck for 23s! [container-31451:45878]

下面分析是什么导致的服务器cpu卡住。

复制代码
1、打开prometheus,观察服务器IO 
	IO操作每秒占比(左下角的图)
	     node_disk_io_time_seconds_total:发现这个指标计算出的每秒IO占用时间,在服务器卡顿的时候,是100%,也就是IO存在高使用率的问题。这其实说明不了问题。但是这个服务器并不是IO密集型作业,服务器IO主要是业务系统日志,正常没有多大日志。
	每次读写IO耗时,下图右下角的图
	读和写都比较耗时。
复制代码
2、观察uptime 的load
uptime
load average: 12.35,10.20,8.83
卡顿时load比较高,我的CPU是16个processor,(参考值16*0.7),结合cpu占用发现CPU并不忙,上下文切换也不多。问题可能出在IO上。
3、观察iostat -xm 2
发现svctm 比较高。
反馈虚拟机平台人员,查看存储IO果然延迟高。平台反馈需要换新存储lan,问题解决
相关推荐
Arenaschi2 分钟前
AI对未来游戏模式与游戏开发的助力
网络·人工智能·游戏·ai
国际云,接待6 分钟前
出海东南亚无忧:腾讯云如何凭借本地合作与全球节点,保障游戏和电商业务合规流畅?
大数据·服务器·网络·云计算·腾讯云
ejinxian10 分钟前
Linux 虚拟化技术 KVM/ESXI/Docker
linux·运维·docker·qemu·openvz
z2023050832 分钟前
linux之arm SMMUv3 故障和错误(4)
linux·运维·arm开发
攒钱植发35 分钟前
嵌入式Linux——解密 ARM 性能优化:LDR 未命中时,为何 STR 还能“插队”?
linux·arm开发·c++·性能优化
天外飞雨1 小时前
各传感器消息解析
linux
2501_929907001 小时前
怕随身 WiFi 虚量断连?格行随身wifi拆箱测评:1500G 真不虚标?
网络
逐风&者1 小时前
CentsOS 7 “Could not resolve host: mirrorlist.centos.org; 未知的错误”问题解决
linux·运维·centos
极客范儿2 小时前
华为HCIP网络工程师认证—网络参考模型
网络·华为
南♡黎(・ิϖ・ิ)っ2 小时前
JavaEE初阶,网络原理HTTP报头篇
网络·https·java-ee