AI的记忆革命：从Titans架构到长时运行智能体，谷歌Google，Anthropic，NeurIPS 2025

摘要：2025年末，AI领域同时在架构层和工程层突破"记忆"瓶颈。谷歌Titans通过推理时动态更新的记忆模块，将上下文窗口扩展至200万token；Anthropic则用双智能体+进度文件的工程方案，让AI能跨多个会话持续工作。两条路径殊途同归：AI正在从"健忘的天才"进化为"能积累经验的伙伴"。

标签：#Titans #长上下文 #AI智能体 #测试时学习 #上下文工程

引言：AI的"金鱼记忆"困境

你有没有这样的体验：和AI聊了半小时，它突然"忘了"开头说的话？或者让AI帮你做一个复杂项目，第二天继续时它完全不记得昨天的进度？

这不是AI在偷懒，而是它天生就有"金鱼记忆"------每次对话都像第一次见面，每个会话结束都是彻底失忆。

2025年末，两个重磅研究同时瞄准这个问题，给出了截然不同但殊途同归的答案。

第一部分：问题的两张面孔

AI的记忆问题其实有两层：

第一层是架构限制。Transformer的自注意力机制要求每个token都"看"其他所有token，计算量与序列长度的平方成正比。这意味着上下文越长，成本越爆炸。就像一个人试图同时记住房间里每个人说的每句话------人数翻倍，难度翻四倍。

第二层是会话隔离。即使单次对话能处理很长的上下文，会话一结束，一切归零。让AI做一个需要几天的项目？对不起，每天早上它都会问你"我是谁，我在哪，我要做什么"。

谷歌和Anthropic分别从这两层入手，给出了各自的解法。

第二部分：谷歌的解法------让模型"长出"记忆器官

谷歌在NeurIPS 2025上发布的Titans架构，核心思路出人意料：不是给模型外挂一个记忆库，而是在模型内部新增一个会"动"的器官。

架构内的记忆模块

传统的记忆增强方案，比如RAG（检索增强生成），是在模型外部建一个知识库，需要时去查。这像是给你配了一个图书馆------有用，但你和图书馆是分开的。

Titans不一样。它在模型架构内部新增了一个专用的MLP（多层感知机）模块，这个模块的权重在推理过程中可以动态更新。

这里要区分清楚：

部分	训练后	推理时
主体模型权重	固定	固定不变
记忆模块权重	初始化	动态更新

主体模型------那个决定"我是谁、我怎么思考"的核心------完全不变。变的只是这个专门负责"记东西"的新模块。

打个比方：不是给你换了一个大脑，而是给你的大脑长出了一个新的海马体（负责记忆的脑区），这个海马体在你工作的时候会不断形成新记忆。

关键创新：用"惊喜"决定记什么

人类不会平等对待所有信息。你可能忘了今天午餐吃了什么，但会记得突然停电那一刻。Titans模拟了这种机制，引入"惊喜指标"（surprise metric）：

如果新输入和模型预期差不多（比如财务报告中的又一个数字），低优先级
如果新输入完全出乎意料（比如严肃报告里突然出现香蕉皮），高优先级，立即写入长期记忆

这让模型能选择性地更新记忆模块，而不是要么全记要么全忘。

跨会话怎么办？

这里有个容易混淆的问题：推理时更新的权重，会话结束后还在吗？

答案是：取决于系统怎么实现。

如果只是用完就丢，那记忆只在当前会话有效
如果把更新后的记忆模块权重保存下来，下次加载，理论上可以实现跨会话记忆

论文主要验证的是单次推理中处理超长上下文（200万token）的能力，跨会话持久化是工程层面可以叠加的能力。

理论框架：MIRAS

配套发布的MIRAS框架更有野心------它试图把所有序列模型统一到同一个理论体系中。任何序列模型都可以拆解为四个设计选择：

内存架构：用什么结构存信息？向量、矩阵、还是神经网络？
注意力偏差：优先记住什么类型的信息？
保留门控：怎么平衡"记新"和"留旧"？
记忆算法：用什么方法更新记忆？

这不只是一个模型，而是一张设计地图，让后续研究者可以在统一框架下探索不同组合。

实测效果

Titans的MAC变体（Memory as Context，记忆作为上下文）已经验证能将上下文窗口扩展到200万token，在"大海捞针"任务（从海量文本中找特定信息）中保持高准确率。而且因为记忆是选择性更新的，效率远高于让注意力机制硬扛全部序列。

第三部分：Anthropic的解法------教AI写工作日志

如果说谷歌的方案是"改造大脑"，Anthropic的方案就是"改善工作流程"。

他们的长时运行智能体框架不改模型本身，而是用工程手段解决跨会话失忆问题。核心思路是：像管理人类团队一样管理AI会话。

双智能体架构

整个系统分两个角色：

初始化智能体（第一个会话）：

搭建项目环境
写一个init.sh脚本，让后续智能体能一键启动
创建claude-progress.txt进度文件
做一次Git提交，记录初始状态

编码智能体（后续每个会话）：

先读进度文件和Git日志，搞清楚"我在哪"
一次只做一个功能（防止贪多嚼不烂）
完成后更新进度文件、提交代码
保持"整洁状态"------下一个智能体接手时不用先清理烂摊子

核心洞察：把"交接"显式化

人类团队协作时，交接班是关键环节。Anthropic的方案本质上是把这个环节标准化：

复制代码

会话开始 → 读进度文件 → 读Git日志 → 选择下一个功能 → 开发 → 测试 → 更新进度 → 提交代码 → 会话结束

每个智能体都知道自己从哪来、要到哪去、做完了要留下什么。

解决的失败模式

问题	解决方案
贪多求快，做一半就耗尽上下文	功能清单强制拆分，一次一个
过早宣布完工	功能清单有200+条目，未完成的标记为`false`
接班不知前情	进度文件+Git日志
标记完成但实际有bug	强制要求端到端测试

第四部分：两条路径的共通智慧

表面上，谷歌在改架构，Anthropic在改流程。但仔细看，它们解决的是同一个问题的不同层面，而且有惊人的相似之处：

相似点一：选择性记忆

Titans用"惊喜指标"决定什么值得记。Anthropic的功能清单本质上也是一种选择------只记录"功能是否完成"这个关键状态，而不是保存每一行代码的历史。

共同智慧：记忆的关键不是"记多少"，而是"记对的东西"。

相似点二：结构化存储

Titans的记忆是MLP权重，不是原始文本。Anthropic的进度文件是结构化的JSON，不是自由文本。

共同智慧：压缩和结构化比原样保存更高效。

相似点三：增量更新

Titans在推理过程中逐步更新记忆。Anthropic的智能体每次只前进一步，然后提交。

共同智慧：小步快跑、持续积累，而不是一次性处理所有信息。

差异与互补

维度	Titans	Anthropic框架
改动位置	模型架构	工程流程
记忆形式	权重更新	外部文件
持久性	会话内	跨会话
适用场景	单次超长上下文	多会话复杂项目

它们不是竞争关系，而是互补关系。理想情况下，未来的AI系统可能同时具备：

Titans级别的单次超长上下文能力
Anthropic级别的跨会话工作能力

结语：从"健忘天才"到"经验伙伴"

2025年末的这两项突破，标志着AI正在跨越一个关键门槛。

过去的AI像一个每天早上都喝了孟婆汤的天才------能力惊人，但永远活在当下。

现在，无论是架构层的Titans，还是工程层的长时运行框架，都在让AI学会"积累"------积累上下文、积累进度、积累经验。

这对我们意味着什么？

对开发者：上下文工程（Context Engineering）正在成为和提示工程（Prompt Engineering）同等重要的技能。不只是"怎么问"，还要考虑"在什么状态下问"。

对用户：可以开始期待AI能真正"接手"复杂项目，而不只是回答单个问题。

对行业：记忆和上下文管理将成为AI产品的核心差异化点。谁能让AI"记得更久、记得更准"，谁就能赢得用户。

AI的记忆革命才刚刚开始。

本文基于谷歌Titans/MIRAS论文（NeurIPS 2025）和Anthropic长时运行智能体框架（2025年11月）整理。