golang协程泄漏排查实战

问题背景

某个周末,线上实例开始偶发cpu利用率到达80%的报警,且当时业务几乎无流量,个别实例的cpu利用率仍居高不下

业务是处理websocket的长连接,在请求结束时会通过channel的关闭事件通知各协程退出

排查过程

  1. 首先通过pprof命令采集了一段时间的cpu时间的占用情况,发现大量时间被运行时的协程调度占用,但当时已无流量,所以这种占用情况是不符合预期的
  2. 通过以下命令拉取当时存活的协程
bash 复制代码
curl http://localhost:6790/debug/pprof/goroutine?debug=2 > goroutines.txt
less goroutines.txt
grep yourFunc goroutines.txt

详细的pprof命令可以参考这里

分析过程

其中存活的协程分为以下两部分

  1. hertz, mertrics这些长期存活的和服务监听或者是监控上报有关,本身监控或者对端口的监听会持续存在,这部分没问题。
  2. 另一部分是少量的业务处理过程中开辟的协程,这部分应该随着请求的结束而推出,但实际并没有,问题看来就出现在了这里,因为大量协程没有退出导致调度成本越来越大

解决方案

当前程序对于开辟的协程管理十分不严谨,是通过在各协程中感知channel的close行为然后自行退出,并且关闭channel的行为仅发生在处理请求的过程中。将其修改为go自带的context管理,感知context的cancel行为,将原来对channel的关闭替换为对cancel的调用,并且在websocket被对端关闭的情况下调用cancel。

上线观察几天后,cpu利用率下降,之后继续观察线上问题是否彻底缓解

相关推荐
PPPPPaPeR.7 分钟前
光学算法实战:深度解析镜片厚度对前后表面折射/反射的影响(纯Python实现)
开发语言·python·数码相机·算法
橙露9 分钟前
Java并发编程进阶:线程池原理、参数配置与死锁避免实战
java·开发语言
froginwe1110 分钟前
C 标准库 - `<float.h>`
开发语言
golang学习记10 分钟前
Go 嵌入结构体方法访问全解析:从基础到进阶陷阱
后端
2501_9160088920 分钟前
深入解析iOS机审4.3原理与混淆实战方法
android·java·开发语言·ios·小程序·uni-app·iphone
NAGNIP27 分钟前
程序员效率翻倍的快捷键大全!
前端·后端·程序员
qq_2562470534 分钟前
从“人工智障”到“神经网络”:一口气看懂 AI 的核心原理
后端
无心水35 分钟前
分布式定时任务与SELECT FOR UPDATE:从致命陷阱到优雅解决方案(实战案例+架构演进)
服务器·人工智能·分布式·后端·spring·架构·wpf
用户4001883093737 分钟前
手搓本地 RAG:我用 Python 和 Spring Boot 给 AI 装上了“实时代码监控”
后端
用户34140819912539 分钟前
/dev/binder 详解
后端