线上python问题排查思路

下面把检查线程阻塞和排查内存增长的工具与典型用法按要点列清楚。

线程阻塞与死锁排查

  • 观测点:进程响应变慢或完全停滞,CPU/IO 异常或日志显示线程等待。

  • 日志检查:抓取线程相关日志、异常堆栈、阻塞/等待信息。先定位时间窗口和可疑线程ID。

  • gdb(动态附加查看线程栈)

用法要点:gdb -p <pid>,然后 thread apply all bt 查看每个线程的调用栈,定位互斥锁/等待点。

快速流程:附加 → 列出线程 → 对可疑线程打印 backtrace。

  • strace(跟踪系统调用/阻塞在 syscall)

用法要点:strace -f -p <pid>strace -ff -o out -p <pid>。看是否在 futex、poll、read/write 等系统调用上长时间阻塞。

  • 综合策略:先从日志缩小时间段和线程;用 gdb 看 Python 层调用栈(若是 C 扩展或解释器死锁也能看出);用 strace 判断是用户态等待还是系统调用层面阻塞。

内存泄漏/内存增长排查

  • 观测点:长期运行进程内存占用持续上涨,GC 后未回落,或 OOM 频繁。

  • 监控:top/ps/smem/pmap 定期采样记录 RSS/VSZ。结合应用日志标记时间点。

  • tracemalloc(Python 标准库,跟踪内存分配地点)

用法要点:

python 复制代码
import tracemalloc

tracemalloc.start()

# 在关键点取快照

snap1 = tracemalloc.take_snapshot()

# 运行一段时间后

snap2 = tracemalloc.take_snapshot()

stats = snap2.compare_to(snap1, 'lineno')

for stat in stats[:20]:

print(stat)

能找出按文件行号分配增长最多的地方。

  • objgraph(分析对象引用关系)

用法要点:

python 复制代码
import objgraph

objgraph.show_most_common_types(limit=20)

obj = objgraph.by_type('YourTypeName')[:10]

objgraph.show_backrefs(obj, max_depth=10, filename='leak.png')

用来发现哪些对象数量异常和它们的引用路径(可生成图片)。

  • pympler(运行时内存概览与分配追踪)

用法要点:

python 复制代码
from pympler import muppy, summary

all_objs = muppy.get_objects()

print(summary.summarize(all_objs))

可结合 asizeoftracker 做更细粒度的分配追踪。

  • 实战流程建议:先用系统工具确认增长曲线 → 用 tracemalloc 找到热点分配位置 → 用 objgraph 可视化引用链确认根对象 → 用代码修复并验证(重复采样对比快照)。

快速检查清单(按优先级)

  1. 采集日志与进程内存/线程快照。

  2. 若线程疑似阻塞,先 gdb 打栈,再用 strace 确认是 syscall 层阻塞。

  3. 若内存增长,先采样 RSS,再用 tracemalloc 定位分配源,最后用 objgraph 验证引用链。

  4. 修复后做回归采样对比快照。

相关推荐
绿草在线几秒前
SpringBoot请求与响应全解析
spring boot·后端·lua
七颗糖很甜4 分钟前
预警!超级厄尔尼诺即将登场:2026-2027年全球气候或迎“极端狂暴模式”
java·大数据·python·算法·github
baidu_340998825 分钟前
如何用HTML函数工具测试显卡性能_基准跑分详解【详解】
jvm·数据库·python
格林威5 分钟前
面阵相机 vs 线阵相机:堡盟与Basler选型差异全解析 + Python实战演示
开发语言·网络·人工智能·python·数码相机·yolo·工业相机
深蓝海拓7 分钟前
基于QtPy (PySide6) 的PLC-HMI工程项目(十二)最后的工作
网络·笔记·python·学习·pyqt·plc
武帝为此9 分钟前
【数据质量校验简介】
人工智能·python·机器学习
MFXWW29 分钟前
从 Python 到 3D 开发:Ursina 引擎零基础入门学习路径与核心开发思路
python·游戏引擎·游戏程序·ursina
2301_813599559 分钟前
如何处理MongoDB副本集中节点IP变更_rs.reconfig强制更新配置矩阵
jvm·数据库·python
2301_7965885012 分钟前
如何用数据库版本号机制平滑升级前端本地的数据表结构
jvm·数据库·python
盐烟12 分钟前
xpath-csv_doban_slider
开发语言·python