一、背景
LangGraph 通过 Checkpointer 机制实现图状态的持久化。每次调用 invoke 时,若传入 config={"configurable": {"thread_id": "..."}} ,框架会在每个执行步骤(super-step)结束后自动生成一个 Checkpoint(状态快照),并以 thread 为维度进行组织管理。
这一机制赋予了应用多轮对话记忆、断点续跑、以及状态回放(time travel)等能力。但与此同时,Checkpoint 不会在 thread 结束后自动销毁,需开发者显式管理其生命周期。
二、核心结论
不强制要求,但生产环境中强烈建议进行清理。
是否需要清理,主要取决于所使用的 Checkpointer 后端类型:
| Checkpointer 类型 | 数据生命周期 | 是否需要清理 |
|---|---|---|
InMemorySaver / MemorySaver |
随进程退出自动销毁 | 通常不需要 |
SqliteSaver |
持久化到本地 SQLite 文件 | 建议定期清理 |
PostgresSaver |
持久化到 PostgreSQL | 生产环境必须清理 |
三、不清理的潜在风险
1. 存储膨胀
随着业务运行,thread 数量持续累积,每个 thread 可能包含数十个 checkpoint 快照。对于 SQLite 或 PostgreSQL 后端,若不加以清理,存储占用将线性增长,最终影响服务稳定性。
2. 数据隐私合规
在面向用户的应用中,历史对话数据属于个人隐私信息。GDPR 等法规要求系统在用户注销或请求删除时能够彻底清除其数据。若无清理机制,将面临合规风险。
3. 查询性能下降
Checkpoint 表记录过多时,按 thread_id 检索最新状态的查询效率会逐步退化,影响每次 invoke 的响应时间。
四、官方提供的清理方式
4.1 调用 delete_thread() / adelete_thread()
BaseCheckpointSaver 接口提供了标准的 thread 清理方法,用于删除指定 thread 下的全部 checkpoint:
python
# 同步
checkpointer.delete_thread(thread_id="user_session_123")
# 异步
await checkpointer.adelete_thread(thread_id="user_session_123")
4.2 三种主流清理策略
策略一:保留最近 N 个 Checkpoint
仅保留每个 thread 最近的 N 条快照,删除更早的记录。适用于需要短期回放能力但不需要全量历史的场景。
策略二:基于时间的过期清理
自动删除超过指定时长(如 7 天、30 天)未活跃的 checkpoint。通常结合定时任务(cron job)使用,是生产环境最常见的方案。
策略三:响应用户请求主动清理
当用户注销账户或主动要求删除对话记录时,实时调用 delete_thread() 进行清除,以满足数据隐私合规要求。
4.3 LangGraph Platform(云端部署)
若使用 LangGraph Platform(Agent Server)部署,无需手动配置和维护 checkpointer,平台会自动处理所有持久化基础设施。官方另提供 langgraph-thread-cleanup 命令行工具,支持按 thread 状态(idle、success、error)筛选预览并批量删除,每次操作前均有确认提示,适合运维场景下的手动或自动化清理。
五、综合建议
| 使用场景 | 推荐 Checkpointer | 清理策略 |
|---|---|---|
| 开发 / 测试阶段 | InMemorySaver |
无需清理,进程退出自动释放 |
| 生产环境(单机) | SqliteSaver |
定时任务按时间或状态清理过期 thread |
| 生产环境(分布式) | PostgresSaver |
必须实现清理机制,建议结合消息裁剪 |
| 用户注销 / 会话结束 | 任意持久化后端 | 主动调用 delete_thread() 满足隐私合规 |
| 云端托管部署 | LangGraph Platform | 使用官方 langgraph-thread-cleanup 工具 |
六、补充:配合消息裁剪(trimMessages)
清理 checkpoint 解决的是历史数据的存储问题 ,而 trimMessages 解决的是当前上下文的 token 膨胀问题,两者互为补充,建议在长期运行的应用中同时采用:
trimMessages:在每次 invoke 前裁剪传入 LLM 的消息列表,控制 token 消耗delete_thread():在 thread 生命周期结束后清理持久化存储,控制存储开销
两者结合,可从运行时 和存储层双重维度保障应用的长期稳定运行。