Django QuerySet 懒加载与缓存机制源码级拆解文档

Django QuerySet 懒加载与缓存机制源码级拆解文档

(基于 Django 4.2.7 + CPython 3.11)


1 阅读指引

  • 目标:彻底讲清"为什么第一次 for article in articles: 才会真正发 SQL"
  • 深度:从 Python for 字节码 → Django 源码 → 数据库驱动调用栈
  • 用法:可复制到内部 Wiki 或直接发博客,代码块均可运行

2 一句话结论

QuerySet 只在第一次被迭代 时才会拼 SQL、访问数据库;

之后无论再 forlen()bool()list() 都直接读内存缓存。

这是通过"Python 迭代协议 → QuerySet.iter() → _fetch_all()"链式触发实现的。


3 总览时序图

scss 复制代码
for article in articles
    ├─ articles.__iter__()          # QuerySet 级别
    │   ├─ self._fetch_all()        # 懒加载闸门
    │   │   ├─ self._result_cache = list(self.iterator())
    │   │   │   └─ self.iterator()  # 拼 SQL + 调驱动
    │   │   │       ├─ compiler.as_sql()
    │   │   │       └─ cursor.execute(sql, params)
    │   │   └─ 行→Model 实例
    │   └─ 返回 iter(self._result_cache)
    └─ next() 拿实例

( gates:只有 _fetch_all()self._result_cache is None 才会走数据库)


4 环境准备

bash 复制代码
git clone https://github.com/django/django.git
cd django && git checkout 4.2.7
pip install -e .

5 源码拆解

5.1 入口:QuerySet.iter

文件:django/db/models/query.py #L394

python 复制代码
class QuerySet:
    def __iter__(self):
        self._fetch_all()           # ① 保证数据已加载
        return iter(self._result_cache)  # ② 返回列表迭代器

5.2 闸门:_fetch_all()

文件:同文件 #L1903

python 复制代码
def _fetch_all(self):
    if self._result_cache is None:     # 仅第一次为 None
        self._result_cache = list(self.iterator())
  • 之后无论 len()bool()list() 都直接读 self._result_cache
  • list(self.iterator()) 会一次性把数据库行读进内存

5.3 真正拼 SQL:iterator()

文件:同文件 #L368

python 复制代码
def iterator(self, chunk_size=2000):
    compiler = self.query.get_compiler(using=self.db)
    for row in compiler.results_iter(chunk_size=chunk_size):
        yield self.model.from_db(self.db, self.model._meta.fields, row)
  • compiler.results_iter()cursor.execute(sql, params) # 见下节

5.4 数据库调用点

文件:django/db/models/sql/compiler.py #L1511

python 复制代码
def results_iter(self, chunk_size=None):
    cursor = self.connection.cursor()
    cursor.execute(sql, params)          # ← 真正发 SQL
    for rows in self.cursor_iter(cursor, chunk_size):
        for row in rows:
            yield row

6 Python 层:for 怎么调到 iter

CPython 字节码

scss 复制代码
GET_ITER        # 等价于 iter(obj) → obj.__iter__()
FOR_ITER        # 不断 next(it)

GET_ITER 源码 (Python/ceval.c) 固定走 PyObject_GetIter → tp_iter → __iter__

因此任何可迭代对象 只要实现 __iter__ 就会被 for 触发;

QuerySet 正是利用这一点把"迭代"挂钩到 _fetch_all()


7 缓存验证实验

python 复制代码
from django import db
from blog.models import Article

articles = Article.objects.filter(status='published')
print(articles._result_cache)   # None

for a in articles:              # 第一次迭代
    pass
print(len(db.connection.queries))  # 1 条 SQL
print(articles._result_cache)   # [<Article:...>, ...]

for a in articles:              # 第二次迭代
    print(a.title)              # 不再发 SQL
print(len(db.connection.queries))  # 仍是 1 条

8 常见误区速查表

操作 是否立即查库 备注
Article.objects.all() 只创建 QuerySet
qs.filter(...) 返回新 QuerySet
qs.order_by(...) 同上
qs[10] 切片会触发 _fetch_all
bool(qs) 会调用 __bool__→_fetch_all
len(qs) 会调用 __len__→_fetch_all
list(qs) 直接 list() 会迭代
for x in qs: 第一次迭代
再次 for x in qs: 用缓存

9 小结口诀

QuerySet 是"惰性链表 "------

链上每一步都只是"记录条件",
直到第一次迭代才把整个链编译成 SQL 拉进内存

拉完后结果装进 _result_cache

往后任何姿势的遍历都不再打扰数据库

相关推荐
摸摸芋39 分钟前
Django框架(1)
后端·python·django
码云骑士43 分钟前
27-Docker部署Django(上)-从2GB到180MB的镜像瘦身实战
docker·容器·django
杰杰7981 小时前
DRF的分页讲解-入门篇 三个基础分页类介绍
python·django
王小王-1231 小时前
基于电脑硬件市场数据分析与可视化系统
数据库·数据分析·django·sqlite·电脑·电脑硬件数据·电脑硬件市场分析
码云骑士2 小时前
25-数据库连接池-Django连接复用与连接数上限控制
数据库·python·django
码云骑士2 小时前
22-接手Django老项目(下)-读懂urls路由树与架构脉络
python·架构·django
码云骑士2 小时前
24-Django请求全链路-WSGI到数据库响应的完整旅程
数据库·python·django
码云骑士3 小时前
21-接手Django老项目(上)-环境复现与依赖地狱突围
后端·python·django
li-xun21 小时前
我的在线工具箱继续升级:新增 Token 计算器、AI 提示词生成器和开发者格式化工具
javascript·django·html5
Wonderful U1 天前
Python+Django实战|企业客户关系管理系统(CRM):客户档案、跟进记录、商机管理、合同签约、回款追踪、客户分层、数据分析
python·数据分析·django