Django QuerySet 懒加载与缓存机制源码级拆解文档

Django QuerySet 懒加载与缓存机制源码级拆解文档

(基于 Django 4.2.7 + CPython 3.11)


1 阅读指引

  • 目标:彻底讲清"为什么第一次 for article in articles: 才会真正发 SQL"
  • 深度:从 Python for 字节码 → Django 源码 → 数据库驱动调用栈
  • 用法:可复制到内部 Wiki 或直接发博客,代码块均可运行

2 一句话结论

QuerySet 只在第一次被迭代 时才会拼 SQL、访问数据库;

之后无论再 forlen()bool()list() 都直接读内存缓存。

这是通过"Python 迭代协议 → QuerySet.iter() → _fetch_all()"链式触发实现的。


3 总览时序图

scss 复制代码
for article in articles
    ├─ articles.__iter__()          # QuerySet 级别
    │   ├─ self._fetch_all()        # 懒加载闸门
    │   │   ├─ self._result_cache = list(self.iterator())
    │   │   │   └─ self.iterator()  # 拼 SQL + 调驱动
    │   │   │       ├─ compiler.as_sql()
    │   │   │       └─ cursor.execute(sql, params)
    │   │   └─ 行→Model 实例
    │   └─ 返回 iter(self._result_cache)
    └─ next() 拿实例

( gates:只有 _fetch_all()self._result_cache is None 才会走数据库)


4 环境准备

bash 复制代码
git clone https://github.com/django/django.git
cd django && git checkout 4.2.7
pip install -e .

5 源码拆解

5.1 入口:QuerySet.iter

文件:django/db/models/query.py #L394

python 复制代码
class QuerySet:
    def __iter__(self):
        self._fetch_all()           # ① 保证数据已加载
        return iter(self._result_cache)  # ② 返回列表迭代器

5.2 闸门:_fetch_all()

文件:同文件 #L1903

python 复制代码
def _fetch_all(self):
    if self._result_cache is None:     # 仅第一次为 None
        self._result_cache = list(self.iterator())
  • 之后无论 len()bool()list() 都直接读 self._result_cache
  • list(self.iterator()) 会一次性把数据库行读进内存

5.3 真正拼 SQL:iterator()

文件:同文件 #L368

python 复制代码
def iterator(self, chunk_size=2000):
    compiler = self.query.get_compiler(using=self.db)
    for row in compiler.results_iter(chunk_size=chunk_size):
        yield self.model.from_db(self.db, self.model._meta.fields, row)
  • compiler.results_iter()cursor.execute(sql, params) # 见下节

5.4 数据库调用点

文件:django/db/models/sql/compiler.py #L1511

python 复制代码
def results_iter(self, chunk_size=None):
    cursor = self.connection.cursor()
    cursor.execute(sql, params)          # ← 真正发 SQL
    for rows in self.cursor_iter(cursor, chunk_size):
        for row in rows:
            yield row

6 Python 层:for 怎么调到 iter

CPython 字节码

scss 复制代码
GET_ITER        # 等价于 iter(obj) → obj.__iter__()
FOR_ITER        # 不断 next(it)

GET_ITER 源码 (Python/ceval.c) 固定走 PyObject_GetIter → tp_iter → __iter__

因此任何可迭代对象 只要实现 __iter__ 就会被 for 触发;

QuerySet 正是利用这一点把"迭代"挂钩到 _fetch_all()


7 缓存验证实验

python 复制代码
from django import db
from blog.models import Article

articles = Article.objects.filter(status='published')
print(articles._result_cache)   # None

for a in articles:              # 第一次迭代
    pass
print(len(db.connection.queries))  # 1 条 SQL
print(articles._result_cache)   # [<Article:...>, ...]

for a in articles:              # 第二次迭代
    print(a.title)              # 不再发 SQL
print(len(db.connection.queries))  # 仍是 1 条

8 常见误区速查表

操作 是否立即查库 备注
Article.objects.all() 只创建 QuerySet
qs.filter(...) 返回新 QuerySet
qs.order_by(...) 同上
qs[10] 切片会触发 _fetch_all
bool(qs) 会调用 __bool__→_fetch_all
len(qs) 会调用 __len__→_fetch_all
list(qs) 直接 list() 会迭代
for x in qs: 第一次迭代
再次 for x in qs: 用缓存

9 小结口诀

QuerySet 是"惰性链表 "------

链上每一步都只是"记录条件",
直到第一次迭代才把整个链编译成 SQL 拉进内存

拉完后结果装进 _result_cache

往后任何姿势的遍历都不再打扰数据库

相关推荐
码界筑梦坊14 小时前
111-基于Python的中国旅游用户数据可视化分析系统
python·信息可视化·django·毕业设计·旅游
YJlio15 小时前
10.2.8 以其他账户运行服务(Running services in alternate accounts):为什么“把服务切到某个用户账号下运行”,本质上是在改变服务的整个安全上下文?
python·安全·ios·机器人·django·iphone·7-zip
小熊Coding16 小时前
懂车帝汽车销售数据可视化分析系统
python·信息可视化·django·汽车·数据可视化分析·懂车帝·汽车销售数据分析
ma_de_hao_mei_le1 天前
ntquerysystemiunfomation 数据传递
django
Muyuan19981 天前
22.让 RAG Agent 更像真实产品:聊天页面优化、PDF 上传、知识库重建与检索片段展示
python·django·pdf·fastapi
Muyuan19982 天前
25.Paper RAG Agent 优化记录:上传反馈、计算器安全与 Chunk 参数调整
python·安全·django·sqlite·fastapi
Muyuan19982 天前
26.Paper RAG Agent 展示面收口:截图与项目表达更新记录
人工智能·python·django·fastapi
毕胜客源码3 天前
卷积神经网络的手势识别系统(有技术文档)深度学习 图像识别 卷积神经网络 Django python 人工智能
人工智能·python·深度学习·cnn·django
我叫Double4 天前
遗留-----
django
码农阿豪4 天前
Django接金仓数据库:我踩过的坑和填坑指南
数据库·python·django