Python 后端开发技术博客专栏 | 第 04 篇 Python 内存管理与垃圾回收 -- 从引用计数到分代回收

难度等级： 高级
适合读者： 有 Python 基础的开发者，准备面试的中高级工程师
前置知识： 第 01 篇《Python 数据结构全解析》、第 03 篇《面向对象编程进阶》

导读

当你在线上服务器上看到 Python 进程占用了 2GB 内存，重启后降到 200MB，几小时后又涨回去时 -- 你面对的就是 Python 内存管理的核心问题。

Python 的内存管理是一个精密的多层系统：引用计数 负责即时回收大部分对象，分代垃圾回收 处理引用计数无法解决的循环引用，pymalloc 小对象分配器通过 Arena/Pool/Block 三级结构优化内存分配性能。在这套体系之上，Python 还有小整数缓存池、字符串驻留等优化机制。

但很多开发者对这些机制缺乏深入理解，导致在实际项目中踩坑：

为什么 a = 256; b = 256; a is b 为 True，但 a = 257; b = 257; a is b 的结果却不确定？
两个对象互相引用，引用计数永远不为 0，内存怎么回收？
__slots__ 能省多少内存？有什么限制？
Python 进程为什么"只吃不吐" -- 内存占用只增不减？
线上服务的内存泄漏怎么排查？

本文将从 CPython 源码层面深入剖析 Python 的内存管理体系，并提供实际可操作的内存优化与排查手段。

学习目标

读完本文后，你将能够：

理解 CPython 中 PyObject 的内存布局，解释小整数缓存池和字符串驻留的工作原理
掌握引用计数的增减规则，能用 sys.getrefcount() 分析对象的引用状态
理解分代垃圾回收的触发条件和工作流程，能解释标记-清除算法如何解决循环引用
熟练使用 gc 模块进行垃圾回收的监控和调优
运用 __slots__、生成器等技术优化内存使用
使用 tracemalloc、objgraph 等工具排查线上内存泄漏
理解 pymalloc 的 Arena/Pool/Block 三级结构，解释 Python 进程"内存只增不减"的根因

一、Python 对象的内存布局

1.1 PyObject 与 PyVarObject

在 CPython 中，一切皆对象 ，每个 Python 对象在 C 层面都是一个 PyObject 结构体：

c 复制代码

// CPython 源码简化（Include/object.h）
typedef struct _object {
    Py_ssize_t ob_refcnt;    // 引用计数
    PyTypeObject *ob_type;   // 类型指针
} PyObject;

// 变长对象（list、tuple、str 等）
typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size;      // 元素个数
} PyVarObject;

每个 Python 对象至少占用 16 字节（64 位系统）：8 字节引用计数 + 8 字节类型指针。变长对象额外多 8 字节存储长度。

可以用 sys.getsizeof() 验证：

python 复制代码

import sys

# 基本类型的内存占用
print(f"int(0):    {sys.getsizeof(0)} bytes")      # 24 bytes（ob_size=0）
print(f"int(1):    {sys.getsizeof(1)} bytes")      # 28 bytes
print(f"int(2**30):{sys.getsizeof(2**30)} bytes")  # 32 bytes（超过 30 位需要更多空间）
print(f"float:     {sys.getsizeof(1.0)} bytes")    # 24 bytes
print(f"bool:      {sys.getsizeof(True)} bytes")   # 28 bytes（bool 继承自 int）
print(f"None:      {sys.getsizeof(None)} bytes")   # 16 bytes

# 容器类型
print(f"空 list:   {sys.getsizeof([])} bytes")     # 56 bytes
print(f"空 dict:   {sys.getsizeof(dict())} bytes") # 64 bytes (Python 3.7+)
print(f"空 tuple:  {sys.getsizeof(())} bytes")     # 40 bytes
print(f"空 set:    {sys.getsizeof(set())} bytes")  # 216 bytes（预分配哈希表）
print(f"空 str:    {sys.getsizeof('')} bytes")      # 49 bytes

# 注意：sys.getsizeof 只计算对象自身，不递归计算引用对象
lst = [[1, 2, 3], [4, 5, 6]]
print(f"嵌套 list: {sys.getsizeof(lst)} bytes")    # 只计算外层 list + 指针

为什么 int(0) 占 28 字节？

CPython 的 int 实现使用了可变长度的"数字数组"来支持任意大小的整数。int(0) 的 ob_size 为 0（不需要存储任何 digit），占 24 字节；int(1) 的 ob_size 为 1，需要一个 digit（4 字节），占 28 字节。更大的整数需要更多 digit，内存随之增长。

1.2 小整数缓存池（-5 ~ 256）

CPython 在启动时预创建了 -5 到 256 之间的所有整数对象，存放在一个全局数组中。对这些"小整数"的使用不会创建新对象，而是直接返回缓存的引用：

python 复制代码

# 小整数缓存范围内：同一个对象
a = 256
b = 256
print(a is b)       # True -- 同一个缓存对象
print(id(a) == id(b))  # True

# 超出缓存范围：可能是不同对象
a = 257
b = 257
# 注意：在交互式解释器中可能为 False，
# 在脚本/同一代码块中，编译器优化可能使其为 True
print(a is b)       # 不确定（取决于运行环境）

# 负数边界
a = -5
b = -5
print(a is b)       # True -- -5 在缓存范围内

a = -6
b = -6
print(a is b)       # 不确定

# 验证缓存池的存在
print(id(256) == id(256))  # True（始终）
print(id(257) == id(257))  # True（同一表达式，编译器优化）

为什么缓存 -5 到 256？ 这是 CPython 的经验性选择 -- 统计表明程序中最常使用的整数集中在这个范围。缓存它们可以避免频繁的内存分配和回收，显著提升性能。

重要区分 ：is 比较的是对象身份（id()），== 比较的是值。永远用 == 比较值，is 只用于 None 判断。

1.3 字符串驻留（String Interning）

CPython 对满足特定条件的字符串进行驻留（interning）：相同内容的字符串只在内存中保留一份：

python 复制代码

# 短字符串、标识符风格的字符串会自动驻留
a = "hello"
b = "hello"
print(a is b)  # True -- 驻留，同一对象

# 含空格/特殊字符的字符串通常不驻留
a = "hello world"
b = "hello world"
print(a is b)  # 不确定（在脚本中可能为 True，编译器优化）

# 手动驻留
import sys
a = sys.intern("hello world!")
b = sys.intern("hello world!")
print(a is b)  # True -- 手动驻留后是同一对象

# 驻留的实际应用：大量重复字符串节省内存
# 比如处理 CSV 文件时，列名会重复出现千万次
column_names = [sys.intern("user_id"), sys.intern("user_name")] * 1000000
# 不驻留：每个 "user_id" 都是独立的字符串对象
# 驻留后：所有 "user_id" 指向同一个对象，节省大量内存

驻留规则（CPython 实现细节）：

编译时确定的字符串常量（如 "hello"）会自动驻留
只包含字母、数字和下划线且长度较短的字符串，可能自动驻留
字典的键（包括属性名）会自动驻留
运行时动态拼接的字符串不会自动驻留
可通过 sys.intern() 手动驻留

1.4 `sys.getsizeof()` 的局限与深度内存分析

sys.getsizeof() 只计算对象自身的内存占用，不递归计算引用的子对象：

python 复制代码

import sys

# getsizeof 的局限性
lst = [list(range(1000)) for _ in range(10)]
print(f"外层 list: {sys.getsizeof(lst)} bytes")       # ~136 bytes（仅指针数组）
# 实际总内存远不止这些，因为每个子 list 也占用内存

# 递归计算真实内存占用
def deep_getsizeof(obj, seen=None):
    """递归计算对象及其引用对象的总内存"""
    if seen is None:
        seen = set()

    obj_id = id(obj)
    if obj_id in seen:
        return 0
    seen.add(obj_id)

    size = sys.getsizeof(obj)

    if isinstance(obj, dict):
        size += sum(deep_getsizeof(k, seen) + deep_getsizeof(v, seen)
                    for k, v in obj.items())
    elif isinstance(obj, (list, tuple, set, frozenset)):
        size += sum(deep_getsizeof(item, seen) for item in obj)

    return size

# 对比浅层 vs 深层内存
data = {"users": [{"name": "Alice", "age": 30}] * 100}
print(f"浅层: {sys.getsizeof(data)} bytes")
print(f"深层: {deep_getsizeof(data)} bytes")

二、引用计数机制

2.1 引用计数的核心原理

引用计数是 CPython 内存管理的基石。每个对象内部维护一个计数器 ob_refcnt，记录有多少个引用指向自己。当计数降为 0 时，对象立即被回收。

引用计数增加的场景：

python 复制代码

import sys

# 创建对象
a = [1, 2, 3]  # refcount = 1（变量 a 引用）
print(sys.getrefcount(a))  # 2（a + getrefcount 参数传递的临时引用）

# 1. 赋值给新变量
b = a  # refcount +1
print(sys.getrefcount(a))  # 3

# 2. 放入容器
lst = [a]  # refcount +1
print(sys.getrefcount(a))  # 4

# 3. 作为函数参数传递（临时 +1）
def check_ref(obj):
    print(f"函数内 refcount: {sys.getrefcount(obj)}")  # +1（参数） +1（getrefcount参数）
check_ref(a)

# 注意：sys.getrefcount() 本身会临时增加 1 次引用（参数传递）
# 所以显示值总是比"真实"引用数多 1

引用计数减少的场景：

python 复制代码

import sys

a = [1, 2, 3]
b = a
lst = [a]
print(sys.getrefcount(a))  # 4 (a, b, lst[0], getrefcount参数)

# 1. 变量重新赋值
b = None          # refcount -1
print(sys.getrefcount(a))  # 3

# 2. del 删除变量
del lst            # refcount -1（lst 被删除，lst[0] 对 a 的引用也消失）
print(sys.getrefcount(a))  # 2

# 3. 变量离开作用域
def create_ref():
    local = a      # refcount +1
    print(sys.getrefcount(a))
    # 函数结束，local 离开作用域 → refcount -1

create_ref()
print(sys.getrefcount(a))  # 2

# 4. 从容器中移除
container = [a]
print(sys.getrefcount(a))  # 3
container.pop()
print(sys.getrefcount(a))  # 2

2.2 引用计数的优缺点

优点	缺点
实时性好：引用为 0 时立即回收	无法处理循环引用
实现简单：每次引用变更时更新计数	线程安全开销：需要 GIL 保护
延迟低：没有 "Stop-the-World" 停顿	内存开销：每个对象多 8 字节引用计数
可预测：对象何时销毁是确定性的	性能损耗：频繁的计数器更新

2.3 循环引用 -- 引用计数的致命缺陷

当两个或多个对象互相引用形成闭环时，即使外部不再引用它们，它们的引用计数也不会降为 0：

python 复制代码

import sys
import gc

# 构造循环引用
class Node:
    def __init__(self, name: str):
        self.name = name
        self.neighbor = None

    def __repr__(self):
        neighbor_name = self.neighbor.name if self.neighbor else None
        return f"Node({self.name!r}, neighbor={neighbor_name!r})"

    def __del__(self):
        print(f"Node({self.name!r}) 被销毁")

# 创建循环引用
a = Node("A")
b = Node("B")
a.neighbor = b  # A -> B
b.neighbor = a  # B -> A，形成循环！

# 此时引用关系：
# 变量 a → Node("A")   refcount = 2（a, b.neighbor）
# 变量 b → Node("B")   refcount = 2（b, a.neighbor）

# 删除外部引用
del a
del b
# 现在：
# Node("A") refcount = 1（仍被 Node("B").neighbor 引用）
# Node("B") refcount = 1（仍被 Node("A").neighbor 引用）
# 引用计数永远不为 0，引用计数机制无法回收！

# 需要垃圾回收器介入
gc.collect()  # 强制触发垃圾回收
# 输出: Node('A') 被销毁  Node('B') 被销毁

这就是为什么 Python 需要分代垃圾回收器来补充引用计数的不足。

三、垃圾回收机制（GC）

3.1 分代回收算法

CPython 的垃圾回收器采用分代回收 策略，基于一个经验假设：大多数对象生命周期很短（朝生暮死），活得越久的对象越不可能变成垃圾。

GC 将所有容器对象（能引用其他对象的对象）分为三代：

python 复制代码

import gc

# 查看分代阈值
print(gc.get_threshold())  # (700, 10, 10)
# 含义：
# Generation 0: 新分配对象数 - 释放对象数 > 700 时触发 Gen0 GC
# Generation 1: Gen0 GC 累计触发 10 次后，触发 Gen1 GC
# Generation 2: Gen1 GC 累计触发 10 次后，触发 Gen2 GC（完全回收）

# 查看各代对象数量
print(gc.get_count())  # (当前Gen0计数, Gen1触发次数, Gen2触发次数)

# 手动设置阈值（调优用）
# gc.set_threshold(1000, 15, 15)  # 降低 GC 频率

分代工作流程：

复制代码

新创建的容器对象 → Generation 0（年轻代）
                     |
                     ↓ Gen0 GC 存活
               Generation 1（中年代）
                     |
                     ↓ Gen1 GC 存活
               Generation 2（老年代）
                     |
                     ↓ Gen2 GC（完全回收，最慢）

3.2 标记-清除算法

分代回收的核心算法是标记-清除（Mark and Sweep），专门用于检测和回收循环引用。

算法步骤：

寻找根对象：从已知的活跃引用（全局变量、栈上变量等）出发
标记阶段 ：遍历所有可达对象，将每个对象的引用计数临时减去被容器内部引用的次数
清除阶段：减去后引用计数为 0 的对象就是不可达的垃圾，可以回收

python 复制代码

import gc

# 演示 GC 的工作过程
gc.set_debug(gc.DEBUG_STATS)  # 打印 GC 统计信息

class Cycle:
    def __init__(self, name):
        self.name = name
        self.ref = None

# 创建 100 个循环引用对
for i in range(100):
    a = Cycle(f"A{i}")
    b = Cycle(f"B{i}")
    a.ref = b
    b.ref = a
    del a, b

# 手动触发 GC，观察回收情况
collected = gc.collect()
print(f"回收了 {collected} 个对象")

gc.set_debug(0)  # 关闭调试

3.3 `gc` 模块核心 API

python 复制代码

import gc

# 1. 手动触发垃圾回收
collected = gc.collect()  # 返回不可达对象的数量
print(f"回收了 {collected} 个对象")

# 指定只回收特定代
collected_gen0 = gc.collect(generation=0)  # 只回收 Gen0

# 2. 启用/禁用 GC
gc.disable()  # 禁用自动 GC（引用计数仍然工作）
gc.enable()   # 重新启用

print(f"GC 是否启用: {gc.isenabled()}")  # True

# 3. 查看和设置阈值
print(gc.get_threshold())   # (700, 10, 10)
gc.set_threshold(1000, 15, 10)  # 调高阈值，降低 GC 频率

# 4. 获取被 GC 跟踪的对象
print(f"Gen0 跟踪的对象数: {gc.get_count()[0]}")

# 5. 检测不可达对象（调试用）
gc.set_debug(gc.DEBUG_SAVEALL)  # 将不可达对象保存到 gc.garbage
gc.collect()
if gc.garbage:
    print(f"不可达对象: {gc.garbage}")
gc.set_debug(0)
gc.garbage.clear()

# 6. 获取引用关系（调试用）
a = [1, 2, 3]
b = {"key": a}
referrers = gc.get_referrers(a)  # 谁引用了 a
print(f"引用 a 的对象数: {len(referrers)}")

3.4 弱引用（weakref）-- 不增加引用计数

弱引用允许你引用一个对象而不增加它的引用计数，这在缓存和观察者模式中非常有用：

python 复制代码

import weakref

class ExpensiveObject:
    def __init__(self, name: str, data_size: int):
        self.name = name
        self.data = bytearray(data_size)  # 模拟大量数据

    def __repr__(self):
        return f"ExpensiveObject({self.name!r}, size={len(self.data)})"

    def __del__(self):
        print(f"{self.name} 被销毁, 释放 {len(self.data)} bytes")

# 强引用 vs 弱引用
obj = ExpensiveObject("big_data", 1024 * 1024)  # 1MB

# 创建弱引用
weak = weakref.ref(obj)
print(weak())           # ExpensiveObject('big_data', size=1048576)
print(weak() is obj)    # True

# 弱引用不增加引用计数
import sys
print(sys.getrefcount(obj))  # 2 (obj + getrefcount参数)，弱引用不算

# 原对象被删除后，弱引用返回 None
del obj
print(weak())  # None
# 输出: big_data 被销毁, 释放 1048576 bytes

弱引用缓存实战：

python 复制代码

import weakref

class ImageCache:
    """使用弱引用实现的图片缓存
    
    当图片对象没有其他强引用时，缓存自动释放内存。
    """
    def __init__(self):
        self._cache = weakref.WeakValueDictionary()
        self._hit = 0
        self._miss = 0

    def get(self, path: str):
        """获取缓存的图片对象"""
        obj = self._cache.get(path)
        if obj is not None:
            self._hit += 1
            return obj
        self._miss += 1
        return None

    def put(self, path: str, image):
        """放入缓存"""
        self._cache[path] = image

    @property
    def stats(self):
        return f"hit={self._hit}, miss={self._miss}, cached={len(self._cache)}"

class Image:
    def __init__(self, path: str):
        self.path = path
        self.pixels = bytearray(1024)  # 模拟像素数据

cache = ImageCache()

# 放入缓存
img1 = Image("/photos/cat.jpg")
cache.put("/photos/cat.jpg", img1)
print(cache.stats)  # hit=0, miss=0, cached=1

# 从缓存获取
result = cache.get("/photos/cat.jpg")
print(result is img1)  # True
print(cache.stats)     # hit=1, miss=0, cached=1

# 删除原始引用后，弱引用缓存自动清理
del img1
del result
print(cache.stats)     # hit=1, miss=0, cached=0（自动清理了！）

# 再次获取返回 None
print(cache.get("/photos/cat.jpg"))  # None
print(cache.stats)  # hit=1, miss=1, cached=0

WeakValueDictionary vs WeakSet：

类型	用途	特点
`weakref.ref`	对单个对象的弱引用	最基本的弱引用
`WeakValueDictionary`	值为弱引用的字典	缓存场景
`WeakKeyDictionary`	键为弱引用的字典	附加数据到对象上
`WeakSet`	元素为弱引用的集合	观察者模式
`finalize`	注册回调，对象销毁时执行	替代 `__del__`

注意：int、str、tuple、None 等不可变的内置类型不支持弱引用。

四、内存优化实战

4.1 `slots` -- 大幅减少实例内存

默认情况下，Python 实例属性存储在 __dict__ 字典中。__slots__ 可以替代 __dict__，使用固定的属性槽位，大幅减少内存占用：

python 复制代码

import sys

class UserWithDict:
    """常规类：使用 __dict__ 存储属性"""
    def __init__(self, name: str, age: int, email: str):
        self.name = name
        self.age = age
        self.email = email

class UserWithSlots:
    """使用 __slots__：固定属性槽位"""
    __slots__ = ('name', 'age', 'email')

    def __init__(self, name: str, age: int, email: str):
        self.name = name
        self.age = age
        self.email = email

# 单个实例的内存对比
user_dict = UserWithDict("Alice", 30, "alice@example.com")
user_slots = UserWithSlots("Alice", 30, "alice@example.com")

dict_size = sys.getsizeof(user_dict) + sys.getsizeof(user_dict.__dict__)
slots_size = sys.getsizeof(user_slots)

print(f"__dict__ 版本: {dict_size} bytes")   # 约 152+ bytes
print(f"__slots__ 版本: {slots_size} bytes")  # 约 64 bytes
print(f"节省: {(1 - slots_size / dict_size) * 100:.1f}%")

# __slots__ 没有 __dict__
print(hasattr(user_dict, '__dict__'))   # True
print(hasattr(user_slots, '__dict__'))  # False

# 不能动态添加属性
try:
    user_slots.phone = "12345"
except AttributeError as e:
    print(f"AttributeError: {e}")
    # 'UserWithSlots' object has no attribute 'phone'

大量实例时的内存差异：

python 复制代码

import sys

class PointDict:
    def __init__(self, x, y, z):
        self.x = x
        self.y = y
        self.z = z

class PointSlots:
    __slots__ = ('x', 'y', 'z')
    def __init__(self, x, y, z):
        self.x = x
        self.y = y
        self.z = z

# 创建 100 万个实例
import tracemalloc
tracemalloc.start()

points_dict = [PointDict(i, i+1, i+2) for i in range(100000)]
snapshot1 = tracemalloc.take_snapshot()

points_dict.clear()
tracemalloc.clear_traces()

points_slots = [PointSlots(i, i+1, i+2) for i in range(100000)]
snapshot2 = tracemalloc.take_snapshot()

# 统计内存
stats1 = snapshot1.statistics('filename')
stats2 = snapshot2.statistics('filename')

mem_dict = sum(s.size for s in stats1) / 1024 / 1024
mem_slots = sum(s.size for s in stats2) / 1024 / 1024
print(f"__dict__ 版本: {mem_dict:.2f} MB")
print(f"__slots__ 版本: {mem_slots:.2f} MB")

tracemalloc.stop()

__slots__ 的限制与注意事项：

限制	说明
不能动态添加属性	除非同时声明 `__dict__`
不支持多重继承冲突	两个有 `__slots__` 的父类不能有同名槽位
不影响类属性	`__slots__` 只限制实例属性
子类需要重新声明	否则子类会自动获得 `__dict__`
`__weakref__` 需显式声明	`__slots__` 的类默认不支持弱引用

python 复制代码

# 同时使用 __slots__ 和 __dict__（允许动态添加属性，但失去部分优化）
class Flexible:
    __slots__ = ('x', 'y', '__dict__')
    def __init__(self, x, y):
        self.x = x
        self.y = y

f = Flexible(1, 2)
f.z = 3  # 允许！因为声明了 __dict__
print(f.x, f.y, f.z)  # 1 2 3

# 子类需要重新声明 __slots__
class Base:
    __slots__ = ('x',)

class Child(Base):
    __slots__ = ('y',)  # 只声明新增的属性，x 继承自 Base

c = Child()
c.x = 1
c.y = 2

4.2 生成器 vs 列表的内存效率

生成器是 Python 中最重要的内存优化工具之一 -- 它按需产生值而不是一次性将所有值载入内存：

python 复制代码

import sys

# 列表：一次性加载全部数据到内存
list_data = [i ** 2 for i in range(1000000)]
print(f"列表内存: {sys.getsizeof(list_data):,} bytes")  # ~8.5 MB

# 生成器：几乎不占内存
gen_data = (i ** 2 for i in range(1000000))
print(f"生成器内存: {sys.getsizeof(gen_data)} bytes")    # ~112 bytes

# 两者计算结果完全相同
print(sum(list_data))
print(sum(i ** 2 for i in range(1000000)))  # 直接用生成器表达式

大数据处理场景：

python 复制代码

def read_large_file_bad(filepath: str):
    """反模式：一次性读取整个文件到内存"""
    with open(filepath) as f:
        return f.readlines()  # 文件有多大就占多大内存

def read_large_file_good(filepath: str):
    """推荐：用生成器逐行处理"""
    with open(filepath) as f:
        for line in f:  # 文件对象本身就是迭代器
            yield line.strip()

# 处理管道：全程流式处理，内存占用恒定
def process_pipeline(filepath: str):
    lines = read_large_file_good(filepath)
    non_empty = (line for line in lines if line)
    parsed = (line.split(",") for line in non_empty)
    # 整个管道不会在内存中积累数据
    for record in parsed:
        pass  # 处理每条记录

itertools 的流式工具：

python 复制代码

import itertools

# islice：从大数据集中截取片段
huge_range = range(10**9)  # 10 亿个数，但 range 是惰性的
first_10 = list(itertools.islice(huge_range, 10))
print(first_10)  # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# chain：连接多个迭代器，不创建中间列表
all_data = itertools.chain(range(100), range(200), range(300))
total = sum(all_data)  # 流式计算，内存恒定
print(total)  # 0+...+99 + 0+...+199 + 0+...+299 = 74850

# groupby：流式分组
data = [("A", 1), ("A", 2), ("B", 3), ("B", 4), ("C", 5)]
for key, group in itertools.groupby(data, key=lambda x: x[0]):
    print(f"{key}: {list(group)}")

4.3 内存泄漏排查工具

工具一：tracemalloc -- 标准库内存追踪

python 复制代码

import tracemalloc
import linecache

def display_top(snapshot, key_type='lineno', limit=5):
    """显示内存占用 Top N 的代码位置"""
    stats = snapshot.statistics(key_type)
    print(f"\nTop {limit} 内存分配位置:")
    for index, stat in enumerate(stats[:limit], 1):
        frame = stat.traceback[0]
        print(f"  #{index}: {frame.filename}:{frame.lineno} "
              f"- {stat.size / 1024:.1f} KB ({stat.count} 个对象)")

# 启动追踪
tracemalloc.start()

# 模拟内存分配
cache = {}
for i in range(10000):
    cache[f"key_{i}"] = list(range(100))

# 拍摄快照
snapshot = tracemalloc.take_snapshot()
display_top(snapshot)

# 对比两个快照，找出内存增长点
snapshot1 = tracemalloc.take_snapshot()
# ... 执行一些操作 ...
more_data = [bytearray(1024) for _ in range(1000)]
snapshot2 = tracemalloc.take_snapshot()

stats = snapshot2.compare_to(snapshot1, 'lineno')
print("\n内存变化 Top 5:")
for stat in stats[:5]:
    print(f"  {stat}")

tracemalloc.stop()

工具二：gc 模块检测循环引用

python 复制代码

import gc

def find_circular_refs():
    """检测当前存在的循环引用"""
    gc.collect()  # 先做一次完全回收

    # 启用调试模式，将不可回收对象保存到 gc.garbage
    gc.set_debug(gc.DEBUG_SAVEALL)
    gc.collect()

    if gc.garbage:
        print(f"发现 {len(gc.garbage)} 个不可回收对象:")
        for obj in gc.garbage[:10]:
            print(f"  type={type(obj).__name__}, repr={repr(obj)[:80]}")
    else:
        print("没有发现不可回收的循环引用")

    gc.set_debug(0)
    gc.garbage.clear()

# 创建带 __del__ 的循环引用（Python 3.4 之前不可回收）
class LegacyNode:
    def __init__(self, name):
        self.name = name
        self.ref = None
    def __del__(self):
        pass  # 有 __del__ 方法

a = LegacyNode("A")
b = LegacyNode("B")
a.ref = b
b.ref = a
del a, b

find_circular_refs()
# Python 3.4+ 可以回收带 __del__ 的循环引用（PEP 442）

工具三：objgraph -- 可视化对象引用图

python 复制代码

# pip install objgraph
# objgraph 是第三方库，用于分析对象引用关系

# 示例：查找增长最快的对象类型
# import objgraph
# objgraph.show_growth(limit=10)
# objgraph.show_most_common_types(limit=10)

# 不依赖 objgraph 的替代方案：
import gc
from collections import Counter

def show_type_stats(limit: int = 10):
    """显示各类型对象数量统计"""
    gc.collect()
    type_count = Counter(type(obj).__name__ for obj in gc.get_objects())
    print(f"当前跟踪对象总数: {len(gc.get_objects())}")
    print(f"\nTop {limit} 对象类型:")
    for type_name, count in type_count.most_common(limit):
        print(f"  {type_name}: {count}")

show_type_stats()

4.4 大数据处理的内存管理策略

python 复制代码

# 策略1：分块处理（Chunked Processing）
def process_large_csv(filepath: str, chunk_size: int = 10000):
    """分块读取大 CSV 文件"""
    import csv
    with open(filepath, newline='') as f:
        reader = csv.reader(f)
        header = next(reader)
        chunk = []
        for row in reader:
            chunk.append(row)
            if len(chunk) >= chunk_size:
                yield chunk  # 产出一个块
                chunk = []   # 清空，释放内存
        if chunk:
            yield chunk

# 策略2：内存映射（Memory-Mapped Files）
import mmap

def search_in_large_file(filepath: str, keyword: bytes) -> int:
    """使用 mmap 在大文件中搜索，不加载整个文件到内存"""
    count = 0
    with open(filepath, 'rb') as f:
        with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as mm:
            start = 0
            while True:
                pos = mm.find(keyword, start)
                if pos == -1:
                    break
                count += 1
                start = pos + 1
    return count

# 策略3：使用 __slots__ 的数据类
class Record:
    """用于大量数据记录的轻量级类"""
    __slots__ = ('id', 'name', 'value')
    def __init__(self, id: int, name: str, value: float):
        self.id = id
        self.name = name
        self.value = value

五、CPython 内存分配器

5.1 三层内存管理架构

CPython 的内存管理分为三层：

复制代码

层级 3：对象特定分配器（Object-specific allocators）
         int、float、list 等各自的 free list
              ↓
层级 2：Python 对象分配器（pymalloc）
         Arena → Pool → Block 三级结构
         处理 <= 512 bytes 的小对象
              ↓
层级 1：原生内存分配器
         malloc() / free()（C 标准库）
         处理 > 512 bytes 的大对象
              ↓
层级 0：操作系统
         brk() / mmap()（向 OS 申请内存）

5.2 pymalloc：Arena / Pool / Block

pymalloc 是 CPython 专门为 <= 512 字节的小对象设计的高效分配器：

Block：最小的分配单元

固定大小：8、16、24、...、512 字节（8 字节对齐，共 64 种规格）
分配请求向上取整到最近的 8 倍数：请求 13 字节 → 分配 16 字节的 Block

Pool：管理同一规格的 Block

固定大小：4 KB（一个内存页）
一个 Pool 只包含同一规格的 Block
有三种状态：full（无空闲 Block）、used（部分使用）、empty（全空闲）

Arena：管理 Pool 的容器

固定大小：256 KB
包含 64 个 Pool（256KB / 4KB = 64）
Arena 是通过 mmap() 或 malloc() 从操作系统申请的

python 复制代码

# 可以间接验证 pymalloc 的存在
import sys

# 小对象（<= 512 bytes）走 pymalloc
small = object()

# 大对象（> 512 bytes）直接走 malloc
big = bytearray(1024)

# 通过 sys._debugmallocstats() 查看分配器统计（CPython 调试版本）
# 正式版本中此函数可能不可用或输出有限
if hasattr(sys, '_debugmallocstats'):
    # sys._debugmallocstats()  # 输出详细的 pymalloc 统计
    pass

5.3 内存碎片与"只增不减"问题

为什么 Python 进程的内存占用只增不减？

这是 Python 开发者最常遇到的困惑之一。根本原因在于 pymalloc 的 Arena 释放机制：

复制代码

1. 对象分配：
   OS → Arena(256KB) → Pool(4KB) → Block(8~512B) → Python 对象

2. 对象释放：
   Python 对象被回收 → Block 标记为空闲 → 放入 Pool 的 free list
   但 Pool 不会立即还给 Arena，Arena 不会立即还给 OS

3. Arena 释放条件：
   只有当一个 Arena 中的所有 Pool 都为空时，Arena 才会被释放给 OS
   只要有一个 Pool 中还有一个活跃的 Block，整个 Arena(256KB) 都不会释放

python 复制代码

import gc

# 模拟内存碎片场景
def demonstrate_fragmentation():
    """
    创建大量小对象，然后删除大部分但保留少量。
    保留的对象分散在不同的 Arena 中，导致 Arena 无法释放。
    """
    # 阶段1：分配大量对象
    objects = [bytearray(100) for _ in range(100000)]
    # 此时分配了大量的 Arena

    # 阶段2：删除 99% 的对象，但每隔 100 个保留一个
    survivors = objects[::100]  # 保留 1000 个
    del objects                 # 删除列表本身
    gc.collect()

    # 此时：
    # - 99% 的 Block 已经空闲
    # - 但这 1000 个存活对象分散在不同的 Arena 中
    # - 几乎没有 Arena 能够被完全释放
    # → 进程内存占用几乎不降

    return survivors

survivors = demonstrate_fragmentation()
print(f"存活对象: {len(survivors)}")
# 进程 RSS 此时依然很高

应对策略：

策略	适用场景	效果
使用生成器代替列表	数据流式处理	避免内存峰值
对象池复用	频繁创建/销毁同类对象	减少碎片
多进程代替多线程	独立的内存密集型任务	进程退出后 OS 回收全部内存
定期重启 worker	Web 服务（Gunicorn 等）	`max_requests` 参数
使用 `__slots__`	大量实例	减少总内存占用
使用 `numpy`/`array`	大量数值数据	连续内存，非 Python 对象

5.4 Free List 机制

CPython 对某些频繁创建和销毁的对象维护了 Free List（空闲列表），对象销毁后不立即释放内存，而是放入 Free List 中供后续复用：

python 复制代码

import sys

# float 的 Free List
# CPython 会缓存已销毁的 float 对象结构，下次创建时直接复用
a = 3.14
id_a = id(a)
del a

b = 2.71
# b 可能复用了 a 的内存空间
# 注意：这只是底层优化，不影响正常使用

# tuple 的 Free List
# CPython 为长度 0~19 的 tuple 各维护一个 Free List
t1 = (1, 2, 3)
id_t1 = id(t1)
del t1

t2 = (4, 5, 6)
# t2 可能复用了 t1 的内存
print(f"t1 id: {id_t1}, t2 id: {id(t2)}")
# 两个 id 可能相同（在 CPython 中）

# list 的 Free List（最多缓存 80 个空 list 对象结构）
lists = [list() for _ in range(100)]
ids = [id(l) for l in lists]
del lists

new_lists = [list() for _ in range(100)]
new_ids = [id(l) for l in new_lists]

# 部分新 list 会复用旧 list 的内存
reused = sum(1 for new_id in new_ids if new_id in ids)
print(f"复用的 list 对象数: {reused}")  # 通常接近 80

六、面试高频题详解

Q1：Python 的垃圾回收机制是怎样的？

python 复制代码

"""
Python（CPython）的垃圾回收是 引用计数 + 分代回收 双机制：

1. 引用计数（主要机制）：
   - 每个对象维护引用计数 ob_refcnt
   - 引用增加时 +1，减少时 -1
   - 计数为 0 时立即回收
   - 优点：实时、确定性
   - 缺点：无法处理循环引用

2. 分代垃圾回收（辅助机制）：
   - 解决循环引用问题
   - 使用标记-清除算法
   - 对象分为 3 代（Gen0/1/2）
   - 年轻代 GC 频繁，老年代 GC 稀少
   - 只跟踪容器对象（list、dict、自定义类等）
   - int、str 等不可变类型不参与分代 GC
"""

import gc
import sys

# 演示引用计数
a = [1, 2, 3]
print(f"引用计数: {sys.getrefcount(a) - 1}")  # 减 1 消除 getrefcount 的影响

b = a
print(f"引用计数: {sys.getrefcount(a) - 1}")  # +1

del b
print(f"引用计数: {sys.getrefcount(a) - 1}")  # -1

# 演示分代 GC
print(f"\nGC 阈值: {gc.get_threshold()}")
print(f"当前计数: {gc.get_count()}")

# 手动触发 GC
collected = gc.collect()
print(f"回收了 {collected} 个对象")

Q2：如何解决循环引用导致的内存泄漏？

python 复制代码

import gc
import weakref

# 方案1：手动打破循环
class TreeNode:
    def __init__(self, value):
        self.value = value
        self.parent = None
        self.children = []

    def add_child(self, child):
        child.parent = self  # 循环引用：parent ←→ child
        self.children.append(child)

    def detach(self):
        """手动打破循环引用"""
        self.parent = None
        for child in self.children:
            child.parent = None
        self.children.clear()

# 方案2：使用弱引用
class TreeNodeWeak:
    def __init__(self, value):
        self.value = value
        self._parent = None  # 使用弱引用
        self.children = []

    @property
    def parent(self):
        return self._parent() if self._parent is not None else None

    def add_child(self, child):
        child._parent = weakref.ref(self)  # 弱引用不增加引用计数
        self.children.append(child)

# 方案3：使用 gc.collect() 强制回收
class Node:
    def __init__(self, name):
        self.name = name
        self.ref = None

a = Node("A")
b = Node("B")
a.ref = b
b.ref = a
del a, b

collected = gc.collect()
print(f"方案3: GC 回收了 {collected} 个对象")

# 方案4：使用上下文管理器确保清理
class Connection:
    def __init__(self):
        self.pool = None

    def __enter__(self):
        return self

    def __exit__(self, *args):
        self.pool = None  # 主动打破引用

Q3：`slots` 的作用和限制是什么？

python 复制代码

import sys

"""
__slots__ 的作用：
1. 减少内存占用：用固定槽位替代 __dict__
2. 加快属性访问速度：直接偏移量访问 vs 字典哈希查找
3. 防止动态添加属性：类似于"冻结"属性集

__slots__ 的限制：
1. 不能动态添加属性（除非声明 __dict__）
2. 不支持多重继承冲突
3. 子类必须重新声明 __slots__
4. 默认不支持弱引用（除非声明 __weakref__）
5. 不能使用 __dict__ 相关的动态特性
"""

class WithDict:
    def __init__(self, x, y):
        self.x = x
        self.y = y

class WithSlots:
    __slots__ = ('x', 'y')
    def __init__(self, x, y):
        self.x = x
        self.y = y

# 内存对比
d = WithDict(1, 2)
s = WithSlots(1, 2)

d_size = sys.getsizeof(d) + sys.getsizeof(d.__dict__)
s_size = sys.getsizeof(s)

print(f"WithDict:  {d_size} bytes")
print(f"WithSlots: {s_size} bytes")
print(f"节省约: {(1 - s_size / d_size) * 100:.0f}%")

# 限制演示
try:
    s.z = 3  # AttributeError
except AttributeError as e:
    print(f"限制1 - 不能动态添加: {e}")

# 正确的子类 __slots__
class Child(WithSlots):
    __slots__ = ('z',)  # 只声明新增属性

c = Child(1, 2)
c.z = 3
print(f"子类: x={c.x}, y={c.y}, z={c.z}")

Q4：为什么 Python 进程的内存占用只增不减？

python 复制代码

"""
根本原因：pymalloc 的 Arena 释放机制

1. pymalloc 三级结构：
   - Arena (256KB) → Pool (4KB) → Block (8~512B)
   
2. 释放条件：
   - Block 释放后放入 Pool 的 free list（复用，不还给 Arena）
   - Pool 只有所有 Block 都空闲时才还给 Arena
   - Arena 只有所有 Pool 都为空时才还给 OS
   
3. 碎片化：
   - 存活对象分散在不同 Arena 中
   - 只要 Arena 中有一个活跃 Block，整个 256KB 都不会释放

解决方案：
- Gunicorn: max_requests 参数定期重启 worker
- 多进程模型：进程退出后 OS 回收全部内存
- 使用 numpy 等 C 扩展管理大块数据
- 对象池复用，减少分配和释放
"""

import gc

# 简单演示
data = [bytearray(64) for _ in range(100000)]  # 分配大量小对象
# 此时进程内存上升

del data    # 删除所有对象
gc.collect()  # 强制 GC
# 但进程 RSS 基本不降
# 因为 pymalloc 的 Arena 很难全部释放

# 验证：pymalloc 的内存确实被释放给了空闲列表（可以复用）
# 再次分配同样大小的对象会非常快，因为复用了空闲内存
data2 = [bytearray(64) for _ in range(100000)]  # 复用 pymalloc 的空闲内存
# 进程 RSS 不会继续增长
del data2
gc.collect()
print("演示完成：pymalloc 空闲内存可复用但不还给 OS")

本章总结

本文从 CPython 实现层面，系统性地剖析了 Python 的内存管理体系：

对象内存布局：每个 Python 对象至少 16 字节（引用计数 + 类型指针）。小整数缓存池（-5~256）和字符串驻留机制是 CPython 的性能优化手段，但不要依赖这些实现细节编写业务逻辑。
引用计数：CPython 内存管理的基石。赋值、传参、放入容器时 +1，删除变量、重新赋值、离开作用域时 -1。优点是实时确定性回收，缺点是无法处理循环引用。
分代垃圾回收：补充引用计数的不足。将容器对象分为三代，使用标记-清除算法检测循环引用。Generation 0 阈值 700，每触发 10 次 Gen0 GC 触发一次 Gen1 GC，以此类推。
弱引用 ：weakref 模块提供不增加引用计数的引用方式，在缓存和观察者模式中极为有用。WeakValueDictionary 可以实现"自动过期"的缓存。
内存优化 ：__slots__ 可减少 40%-60% 的实例内存占用；生成器避免大列表的内存峰值；tracemalloc 追踪内存分配热点。
pymalloc 分配器：Arena(256KB)/Pool(4KB)/Block(8~512B) 三级结构为小对象分配提供了高性能。但 Arena 的释放条件严格（所有 Block 都空闲），导致"内存只增不减"的现象。应对策略是定期重启 worker、使用多进程模型。

核心原则 ：理解 Python 的内存管理不只是面试八股文，更是排查线上内存泄漏、优化大数据处理性能的必备技能。记住三条经验法则：(1) 用生成器替代大列表；(2) 对大量实例使用 __slots__；(3) 对长期运行的服务配置定期重启。

下一篇预告

第 05 篇：Python 数据模型与标准库精选 -- 写出 Pythonic 的代码

下一篇文章将带你领略 Python 数据模型的优雅与标准库的强大。你将了解：

Python 数据模型（Data Model） ：特殊方法与协议驱动编程，collections.abc 抽象基类体系
dataclasses 与现代数据建模 ：@dataclass 的高级配置，与 namedtuple、TypedDict、Pydantic 的对比选型
标准库精选 ：collections（Counter、deque）、itertools（chain、groupby）、functools（lru_cache、singledispatch）、contextlib（contextmanager、ExitStack）、pathlib、typing
Python 3.10+ 新特性 ：结构模式匹配 match/case、海象运算符 :=、联合类型语法 X | Y

掌握这些工具和惯用法，你的代码将从"能跑"升级为"Pythonic" -- 简洁、优雅、符合 Python 社区的最佳实践。

Python 后端开发技术博客专栏 | 作者：耿雨飞

本文为专栏第 04 篇，共 25 篇。完整目录请参阅《Python技术博客专栏大纲》。

Python 后端开发技术博客专栏 | 第 04 篇 Python 内存管理与垃圾回收 -- 从引用计数到分代回收

导读

学习目标

一、Python 对象的内存布局

1.1 PyObject 与 PyVarObject

1.2 小整数缓存池（-5 ~ 256）

1.3 字符串驻留（String Interning）

1.4 sys.getsizeof() 的局限与深度内存分析

二、引用计数机制

2.1 引用计数的核心原理

2.2 引用计数的优缺点

2.3 循环引用 -- 引用计数的致命缺陷

三、垃圾回收机制（GC）

3.1 分代回收算法

3.2 标记-清除算法

3.3 gc 模块核心 API

3.4 弱引用（weakref）-- 不增加引用计数

四、内存优化实战

4.1 __slots__ -- 大幅减少实例内存

4.2 生成器 vs 列表的内存效率

4.3 内存泄漏排查工具

4.4 大数据处理的内存管理策略

五、CPython 内存分配器

5.1 三层内存管理架构

5.2 pymalloc：Arena / Pool / Block

5.3 内存碎片与"只增不减"问题

5.4 Free List 机制

六、面试高频题详解

Q1：Python 的垃圾回收机制是怎样的？

Q2：如何解决循环引用导致的内存泄漏？

Q3：__slots__ 的作用和限制是什么？

Q4：为什么 Python 进程的内存占用只增不减？

本章总结

下一篇预告

1.4 `sys.getsizeof()` 的局限与深度内存分析

3.3 `gc` 模块核心 API

4.1 `slots` -- 大幅减少实例内存

Q3：`slots` 的作用和限制是什么？