IO延迟引起的虚拟机故障排查

复制代码
vmware 虚拟机连上之后总感觉非常卡,查看CPU 内存资源使用率是正常的。
message 日志有cpu卡住的报错
NMI watchdog: BUG: soft lockup - CPU#8 stuck for 23s! [container-31451:45878]

下面分析是什么导致的服务器cpu卡住。

复制代码
1、打开prometheus,观察服务器IO 
	IO操作每秒占比(左下角的图)
	     node_disk_io_time_seconds_total:发现这个指标计算出的每秒IO占用时间,在服务器卡顿的时候,是100%,也就是IO存在高使用率的问题。这其实说明不了问题。但是这个服务器并不是IO密集型作业,服务器IO主要是业务系统日志,正常没有多大日志。
	每次读写IO耗时,下图右下角的图
	读和写都比较耗时。
复制代码
2、观察uptime 的load
uptime
load average: 12.35,10.20,8.83
卡顿时load比较高,我的CPU是16个processor,(参考值16*0.7),结合cpu占用发现CPU并不忙,上下文切换也不多。问题可能出在IO上。
3、观察iostat -xm 2
发现svctm 比较高。
反馈虚拟机平台人员,查看存储IO果然延迟高。平台反馈需要换新存储lan,问题解决
相关推荐
2501_946786202 分钟前
2026漏洞扫描服务:企业防护痛点解决指南
网络·安全·web安全
卧室小白5 分钟前
K8S-Pod基本配置
linux·运维·服务器
yyuuuzz6 分钟前
谷歌云基础服务的入门认知
linux·运维·服务器·数据库·人工智能·github
煜声远播14 分钟前
相册卡顿的系统级排查复盘:fsync 不要在锁里调用
linux
syagain_zsx26 分钟前
Linux进程全面解析:从基础到高级管理(2/3)
linux·运维·服务器
洛水水27 分钟前
图床项目实现:MD5秒传 + 个人文件列表 + 图片分享等功能的完善
服务器·网络
Irissgwe36 分钟前
8-1\IP 分片和组装的具体过程
linux·网络·tcp/ip·网络层·分片·组装
Zevalin爱灰灰44 分钟前
makefile从入门到实战 第一章 认识makefile(一)
linux·makefile
闪电悠米1 小时前
黑马点评-秒杀优化-04_lua_and_db_fallback
服务器·开发语言·网络·数据库·缓存·junit·lua
Shadow(⊙o⊙)1 小时前
进程间通信0.0-pipe()匿名管道,详细分析进程池调度队列执行逻辑,进程池模拟实现。
linux·运维·服务器·开发语言·c++