摘要:2025年末,AI领域同时在架构层和工程层突破"记忆"瓶颈。谷歌Titans通过推理时动态更新的记忆模块,将上下文窗口扩展至200万token;Anthropic则用双智能体+进度文件的工程方案,让AI能跨多个会话持续工作。两条路径殊途同归:AI正在从"健忘的天才"进化为"能积累经验的伙伴"。
标签 :#Titans #长上下文 #AI智能体 #测试时学习 #上下文工程
引言:AI的"金鱼记忆"困境
你有没有这样的体验:和AI聊了半小时,它突然"忘了"开头说的话?或者让AI帮你做一个复杂项目,第二天继续时它完全不记得昨天的进度?
这不是AI在偷懒,而是它天生就有"金鱼记忆"------每次对话都像第一次见面,每个会话结束都是彻底失忆。
2025年末,两个重磅研究同时瞄准这个问题,给出了截然不同但殊途同归的答案。
第一部分:问题的两张面孔
AI的记忆问题其实有两层:
第一层是架构限制。Transformer的自注意力机制要求每个token都"看"其他所有token,计算量与序列长度的平方成正比。这意味着上下文越长,成本越爆炸。就像一个人试图同时记住房间里每个人说的每句话------人数翻倍,难度翻四倍。
第二层是会话隔离。即使单次对话能处理很长的上下文,会话一结束,一切归零。让AI做一个需要几天的项目?对不起,每天早上它都会问你"我是谁,我在哪,我要做什么"。
谷歌和Anthropic分别从这两层入手,给出了各自的解法。
第二部分:谷歌的解法------让模型"长出"记忆器官
谷歌在NeurIPS 2025上发布的Titans架构,核心思路出人意料:不是给模型外挂一个记忆库,而是在模型内部新增一个会"动"的器官。
架构内的记忆模块
传统的记忆增强方案,比如RAG(检索增强生成),是在模型外部建一个知识库,需要时去查。这像是给你配了一个图书馆------有用,但你和图书馆是分开的。
Titans不一样。它在模型架构内部新增了一个专用的MLP(多层感知机)模块,这个模块的权重在推理过程中可以动态更新。
这里要区分清楚:
| 部分 | 训练后 | 推理时 |
|---|---|---|
| 主体模型权重 | 固定 | 固定不变 |
| 记忆模块权重 | 初始化 | 动态更新 |
主体模型------那个决定"我是谁、我怎么思考"的核心------完全不变。变的只是这个专门负责"记东西"的新模块。
打个比方:不是给你换了一个大脑,而是给你的大脑长出了一个新的海马体(负责记忆的脑区),这个海马体在你工作的时候会不断形成新记忆。
关键创新:用"惊喜"决定记什么
人类不会平等对待所有信息。你可能忘了今天午餐吃了什么,但会记得突然停电那一刻。Titans模拟了这种机制,引入"惊喜指标"(surprise metric):
- 如果新输入和模型预期差不多(比如财务报告中的又一个数字),低优先级
- 如果新输入完全出乎意料(比如严肃报告里突然出现香蕉皮),高优先级,立即写入长期记忆
这让模型能选择性地更新记忆模块,而不是要么全记要么全忘。
跨会话怎么办?
这里有个容易混淆的问题:推理时更新的权重,会话结束后还在吗?
答案是:取决于系统怎么实现。
- 如果只是用完就丢,那记忆只在当前会话有效
- 如果把更新后的记忆模块权重保存下来,下次加载,理论上可以实现跨会话记忆
论文主要验证的是单次推理中处理超长上下文(200万token)的能力,跨会话持久化是工程层面可以叠加的能力。
理论框架:MIRAS
配套发布的MIRAS框架更有野心------它试图把所有序列模型统一到同一个理论体系中。任何序列模型都可以拆解为四个设计选择:
- 内存架构:用什么结构存信息?向量、矩阵、还是神经网络?
- 注意力偏差:优先记住什么类型的信息?
- 保留门控:怎么平衡"记新"和"留旧"?
- 记忆算法:用什么方法更新记忆?
这不只是一个模型,而是一张设计地图,让后续研究者可以在统一框架下探索不同组合。
实测效果
Titans的MAC变体(Memory as Context,记忆作为上下文)已经验证能将上下文窗口扩展到200万token,在"大海捞针"任务(从海量文本中找特定信息)中保持高准确率。而且因为记忆是选择性更新的,效率远高于让注意力机制硬扛全部序列。
第三部分:Anthropic的解法------教AI写工作日志
如果说谷歌的方案是"改造大脑",Anthropic的方案就是"改善工作流程"。
他们的长时运行智能体框架不改模型本身,而是用工程手段解决跨会话失忆问题。核心思路是:像管理人类团队一样管理AI会话。
双智能体架构
整个系统分两个角色:
初始化智能体(第一个会话):
- 搭建项目环境
- 写一个
init.sh脚本,让后续智能体能一键启动 - 创建
claude-progress.txt进度文件 - 做一次Git提交,记录初始状态
编码智能体(后续每个会话):
- 先读进度文件和Git日志,搞清楚"我在哪"
- 一次只做一个功能(防止贪多嚼不烂)
- 完成后更新进度文件、提交代码
- 保持"整洁状态"------下一个智能体接手时不用先清理烂摊子
核心洞察:把"交接"显式化
人类团队协作时,交接班是关键环节。Anthropic的方案本质上是把这个环节标准化:
会话开始 → 读进度文件 → 读Git日志 → 选择下一个功能 → 开发 → 测试 → 更新进度 → 提交代码 → 会话结束
每个智能体都知道自己从哪来、要到哪去、做完了要留下什么。
解决的失败模式
| 问题 | 解决方案 |
|---|---|
| 贪多求快,做一半就耗尽上下文 | 功能清单强制拆分,一次一个 |
| 过早宣布完工 | 功能清单有200+条目,未完成的标记为false |
| 接班不知前情 | 进度文件+Git日志 |
| 标记完成但实际有bug | 强制要求端到端测试 |
第四部分:两条路径的共通智慧
表面上,谷歌在改架构,Anthropic在改流程。但仔细看,它们解决的是同一个问题的不同层面,而且有惊人的相似之处:
相似点一:选择性记忆
Titans用"惊喜指标"决定什么值得记。Anthropic的功能清单本质上也是一种选择------只记录"功能是否完成"这个关键状态,而不是保存每一行代码的历史。
共同智慧:记忆的关键不是"记多少",而是"记对的东西"。
相似点二:结构化存储
Titans的记忆是MLP权重,不是原始文本。Anthropic的进度文件是结构化的JSON,不是自由文本。
共同智慧:压缩和结构化比原样保存更高效。
相似点三:增量更新
Titans在推理过程中逐步更新记忆。Anthropic的智能体每次只前进一步,然后提交。
共同智慧:小步快跑、持续积累,而不是一次性处理所有信息。
差异与互补
| 维度 | Titans | Anthropic框架 |
|---|---|---|
| 改动位置 | 模型架构 | 工程流程 |
| 记忆形式 | 权重更新 | 外部文件 |
| 持久性 | 会话内 | 跨会话 |
| 适用场景 | 单次超长上下文 | 多会话复杂项目 |
它们不是竞争关系,而是互补关系。理想情况下,未来的AI系统可能同时具备:
- Titans级别的单次超长上下文能力
- Anthropic级别的跨会话工作能力
结语:从"健忘天才"到"经验伙伴"
2025年末的这两项突破,标志着AI正在跨越一个关键门槛。
过去的AI像一个每天早上都喝了孟婆汤的天才------能力惊人,但永远活在当下。
现在,无论是架构层的Titans,还是工程层的长时运行框架,都在让AI学会"积累"------积累上下文、积累进度、积累经验。
这对我们意味着什么?
对开发者:上下文工程(Context Engineering)正在成为和提示工程(Prompt Engineering)同等重要的技能。不只是"怎么问",还要考虑"在什么状态下问"。
对用户:可以开始期待AI能真正"接手"复杂项目,而不只是回答单个问题。
对行业:记忆和上下文管理将成为AI产品的核心差异化点。谁能让AI"记得更久、记得更准",谁就能赢得用户。
AI的记忆革命才刚刚开始。
本文基于谷歌Titans/MIRAS论文(NeurIPS 2025)和Anthropic长时运行智能体框架(2025年11月)整理。