IO延迟引起的虚拟机故障排查

复制代码
vmware 虚拟机连上之后总感觉非常卡,查看CPU 内存资源使用率是正常的。
message 日志有cpu卡住的报错
NMI watchdog: BUG: soft lockup - CPU#8 stuck for 23s! [container-31451:45878]

下面分析是什么导致的服务器cpu卡住。

复制代码
1、打开prometheus,观察服务器IO 
	IO操作每秒占比(左下角的图)
	     node_disk_io_time_seconds_total:发现这个指标计算出的每秒IO占用时间,在服务器卡顿的时候,是100%,也就是IO存在高使用率的问题。这其实说明不了问题。但是这个服务器并不是IO密集型作业,服务器IO主要是业务系统日志,正常没有多大日志。
	每次读写IO耗时,下图右下角的图
	读和写都比较耗时。
复制代码
2、观察uptime 的load
uptime
load average: 12.35,10.20,8.83
卡顿时load比较高,我的CPU是16个processor,(参考值16*0.7),结合cpu占用发现CPU并不忙,上下文切换也不多。问题可能出在IO上。
3、观察iostat -xm 2
发现svctm 比较高。
反馈虚拟机平台人员,查看存储IO果然延迟高。平台反馈需要换新存储lan,问题解决
相关推荐
wechat_Neal13 分钟前
车载以太网技术全景-网络基础理论篇
网络
水境传感 张园园21 分钟前
便携式光透过率检测仪:如何成为安全“守门人”?
网络
比奇堡派星星43 分钟前
Linux OOM Killer
linux·开发语言·arm开发·驱动开发
做萤石二次开发的哈哈1 小时前
萤石开放平台 萤石可编程设备 | 设备 Python SDK 使用说明
开发语言·网络·python·php·萤石云·萤石
wifi chicken1 小时前
Linux 内核开发之单链表的增删查改详解
linux·数据结构·链表
nvd111 小时前
从 SSE 到 Streamable HTTP:MCP Server 的现代化改造之旅
网络·网络协议·http
小蜗的房子2 小时前
Oracle 19C RAC Public IP单网卡改为bond模式操作指南
运维·网络·数据库·sql·tcp/ip·oracle·oracle rac
无忧智库2 小时前
国家级算力枢纽节点(东数西算)跨区域调度网络与绿色节能数据中心建设:深度解析“数字新基建”的战略落地
网络
网络工程师_ling2 小时前
【阿里云多地域混合云网络架构】
网络·阿里云·架构
jiuri_12152 小时前
深入理解 Linux 内核同步机制
linux·内核