线上python问题排查思路

下面把检查线程阻塞和排查内存增长的工具与典型用法按要点列清楚。

线程阻塞与死锁排查

  • 观测点:进程响应变慢或完全停滞,CPU/IO 异常或日志显示线程等待。

  • 日志检查:抓取线程相关日志、异常堆栈、阻塞/等待信息。先定位时间窗口和可疑线程ID。

  • gdb(动态附加查看线程栈)

用法要点:gdb -p <pid>,然后 thread apply all bt 查看每个线程的调用栈,定位互斥锁/等待点。

快速流程:附加 → 列出线程 → 对可疑线程打印 backtrace。

  • strace(跟踪系统调用/阻塞在 syscall)

用法要点:strace -f -p <pid>strace -ff -o out -p <pid>。看是否在 futex、poll、read/write 等系统调用上长时间阻塞。

  • 综合策略:先从日志缩小时间段和线程;用 gdb 看 Python 层调用栈(若是 C 扩展或解释器死锁也能看出);用 strace 判断是用户态等待还是系统调用层面阻塞。

内存泄漏/内存增长排查

  • 观测点:长期运行进程内存占用持续上涨,GC 后未回落,或 OOM 频繁。

  • 监控:top/ps/smem/pmap 定期采样记录 RSS/VSZ。结合应用日志标记时间点。

  • tracemalloc(Python 标准库,跟踪内存分配地点)

用法要点:

python 复制代码
import tracemalloc

tracemalloc.start()

# 在关键点取快照

snap1 = tracemalloc.take_snapshot()

# 运行一段时间后

snap2 = tracemalloc.take_snapshot()

stats = snap2.compare_to(snap1, 'lineno')

for stat in stats[:20]:

print(stat)

能找出按文件行号分配增长最多的地方。

  • objgraph(分析对象引用关系)

用法要点:

python 复制代码
import objgraph

objgraph.show_most_common_types(limit=20)

obj = objgraph.by_type('YourTypeName')[:10]

objgraph.show_backrefs(obj, max_depth=10, filename='leak.png')

用来发现哪些对象数量异常和它们的引用路径(可生成图片)。

  • pympler(运行时内存概览与分配追踪)

用法要点:

python 复制代码
from pympler import muppy, summary

all_objs = muppy.get_objects()

print(summary.summarize(all_objs))

可结合 asizeoftracker 做更细粒度的分配追踪。

  • 实战流程建议:先用系统工具确认增长曲线 → 用 tracemalloc 找到热点分配位置 → 用 objgraph 可视化引用链确认根对象 → 用代码修复并验证(重复采样对比快照)。

快速检查清单(按优先级)

  1. 采集日志与进程内存/线程快照。

  2. 若线程疑似阻塞,先 gdb 打栈,再用 strace 确认是 syscall 层阻塞。

  3. 若内存增长,先采样 RSS,再用 tracemalloc 定位分配源,最后用 objgraph 验证引用链。

  4. 修复后做回归采样对比快照。

相关推荐
葫芦和十三3 小时前
图解 MongoDB 26|片键设计:决定集群命运的一个决定
后端·mongodb·agent
Avan_菜菜4 小时前
使用 Docker + rclone 自建 WebDAV
后端·agent·claude
阳光是sunny5 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器
前端·人工智能·后端
万少7 小时前
万少的博客 - 技术分享与解决方案
前端·javascript·后端
咖啡八杯7 小时前
GoF设计模式——备忘录模式
java·后端·spring·设计模式
苍何7 小时前
腾讯再放大招,企微 Agent 大圆开启内测
后端
ethantan7 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
apocelipes9 小时前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
Cosolar9 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
IT_陈寒10 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端