AI的记忆革命:从Titans架构到长时运行智能体,谷歌Google,Anthropic,NeurIPS 2025

摘要:2025年末,AI领域同时在架构层和工程层突破"记忆"瓶颈。谷歌Titans通过推理时动态更新的记忆模块,将上下文窗口扩展至200万token;Anthropic则用双智能体+进度文件的工程方案,让AI能跨多个会话持续工作。两条路径殊途同归:AI正在从"健忘的天才"进化为"能积累经验的伙伴"。

标签#Titans #长上下文 #AI智能体 #测试时学习 #上下文工程


引言:AI的"金鱼记忆"困境

你有没有这样的体验:和AI聊了半小时,它突然"忘了"开头说的话?或者让AI帮你做一个复杂项目,第二天继续时它完全不记得昨天的进度?

这不是AI在偷懒,而是它天生就有"金鱼记忆"------每次对话都像第一次见面,每个会话结束都是彻底失忆。

2025年末,两个重磅研究同时瞄准这个问题,给出了截然不同但殊途同归的答案。


第一部分:问题的两张面孔

AI的记忆问题其实有两层:

第一层是架构限制。Transformer的自注意力机制要求每个token都"看"其他所有token,计算量与序列长度的平方成正比。这意味着上下文越长,成本越爆炸。就像一个人试图同时记住房间里每个人说的每句话------人数翻倍,难度翻四倍。

第二层是会话隔离。即使单次对话能处理很长的上下文,会话一结束,一切归零。让AI做一个需要几天的项目?对不起,每天早上它都会问你"我是谁,我在哪,我要做什么"。

谷歌和Anthropic分别从这两层入手,给出了各自的解法。


第二部分:谷歌的解法------让模型"长出"记忆器官

谷歌在NeurIPS 2025上发布的Titans架构,核心思路出人意料:不是给模型外挂一个记忆库,而是在模型内部新增一个会"动"的器官

架构内的记忆模块

传统的记忆增强方案,比如RAG(检索增强生成),是在模型外部建一个知识库,需要时去查。这像是给你配了一个图书馆------有用,但你和图书馆是分开的。

Titans不一样。它在模型架构内部新增了一个专用的MLP(多层感知机)模块,这个模块的权重在推理过程中可以动态更新

这里要区分清楚:

部分 训练后 推理时
主体模型权重 固定 固定不变
记忆模块权重 初始化 动态更新

主体模型------那个决定"我是谁、我怎么思考"的核心------完全不变。变的只是这个专门负责"记东西"的新模块。

打个比方:不是给你换了一个大脑,而是给你的大脑长出了一个新的海马体(负责记忆的脑区),这个海马体在你工作的时候会不断形成新记忆。

关键创新:用"惊喜"决定记什么

人类不会平等对待所有信息。你可能忘了今天午餐吃了什么,但会记得突然停电那一刻。Titans模拟了这种机制,引入"惊喜指标"(surprise metric):

  • 如果新输入和模型预期差不多(比如财务报告中的又一个数字),低优先级
  • 如果新输入完全出乎意料(比如严肃报告里突然出现香蕉皮),高优先级,立即写入长期记忆

这让模型能选择性地更新记忆模块,而不是要么全记要么全忘。

跨会话怎么办?

这里有个容易混淆的问题:推理时更新的权重,会话结束后还在吗?

答案是:取决于系统怎么实现

  • 如果只是用完就丢,那记忆只在当前会话有效
  • 如果把更新后的记忆模块权重保存下来,下次加载,理论上可以实现跨会话记忆

论文主要验证的是单次推理中处理超长上下文(200万token)的能力,跨会话持久化是工程层面可以叠加的能力。

理论框架:MIRAS

配套发布的MIRAS框架更有野心------它试图把所有序列模型统一到同一个理论体系中。任何序列模型都可以拆解为四个设计选择:

  1. 内存架构:用什么结构存信息?向量、矩阵、还是神经网络?
  2. 注意力偏差:优先记住什么类型的信息?
  3. 保留门控:怎么平衡"记新"和"留旧"?
  4. 记忆算法:用什么方法更新记忆?

这不只是一个模型,而是一张设计地图,让后续研究者可以在统一框架下探索不同组合。

实测效果

Titans的MAC变体(Memory as Context,记忆作为上下文)已经验证能将上下文窗口扩展到200万token,在"大海捞针"任务(从海量文本中找特定信息)中保持高准确率。而且因为记忆是选择性更新的,效率远高于让注意力机制硬扛全部序列。


第三部分:Anthropic的解法------教AI写工作日志

如果说谷歌的方案是"改造大脑",Anthropic的方案就是"改善工作流程"。

他们的长时运行智能体框架不改模型本身,而是用工程手段解决跨会话失忆问题。核心思路是:像管理人类团队一样管理AI会话

双智能体架构

整个系统分两个角色:

初始化智能体(第一个会话):

  • 搭建项目环境
  • 写一个init.sh脚本,让后续智能体能一键启动
  • 创建claude-progress.txt进度文件
  • 做一次Git提交,记录初始状态

编码智能体(后续每个会话):

  • 先读进度文件和Git日志,搞清楚"我在哪"
  • 一次只做一个功能(防止贪多嚼不烂)
  • 完成后更新进度文件、提交代码
  • 保持"整洁状态"------下一个智能体接手时不用先清理烂摊子

核心洞察:把"交接"显式化

人类团队协作时,交接班是关键环节。Anthropic的方案本质上是把这个环节标准化:

复制代码
会话开始 → 读进度文件 → 读Git日志 → 选择下一个功能 → 开发 → 测试 → 更新进度 → 提交代码 → 会话结束

每个智能体都知道自己从哪来、要到哪去、做完了要留下什么。

解决的失败模式

问题 解决方案
贪多求快,做一半就耗尽上下文 功能清单强制拆分,一次一个
过早宣布完工 功能清单有200+条目,未完成的标记为false
接班不知前情 进度文件+Git日志
标记完成但实际有bug 强制要求端到端测试

第四部分:两条路径的共通智慧

表面上,谷歌在改架构,Anthropic在改流程。但仔细看,它们解决的是同一个问题的不同层面,而且有惊人的相似之处:

相似点一:选择性记忆

Titans用"惊喜指标"决定什么值得记。Anthropic的功能清单本质上也是一种选择------只记录"功能是否完成"这个关键状态,而不是保存每一行代码的历史。

共同智慧:记忆的关键不是"记多少",而是"记对的东西"。

相似点二:结构化存储

Titans的记忆是MLP权重,不是原始文本。Anthropic的进度文件是结构化的JSON,不是自由文本。

共同智慧:压缩和结构化比原样保存更高效。

相似点三:增量更新

Titans在推理过程中逐步更新记忆。Anthropic的智能体每次只前进一步,然后提交。

共同智慧:小步快跑、持续积累,而不是一次性处理所有信息。

差异与互补

维度 Titans Anthropic框架
改动位置 模型架构 工程流程
记忆形式 权重更新 外部文件
持久性 会话内 跨会话
适用场景 单次超长上下文 多会话复杂项目

它们不是竞争关系,而是互补关系。理想情况下,未来的AI系统可能同时具备:

  • Titans级别的单次超长上下文能力
  • Anthropic级别的跨会话工作能力

结语:从"健忘天才"到"经验伙伴"

2025年末的这两项突破,标志着AI正在跨越一个关键门槛。

过去的AI像一个每天早上都喝了孟婆汤的天才------能力惊人,但永远活在当下。

现在,无论是架构层的Titans,还是工程层的长时运行框架,都在让AI学会"积累"------积累上下文、积累进度、积累经验。

这对我们意味着什么?

对开发者:上下文工程(Context Engineering)正在成为和提示工程(Prompt Engineering)同等重要的技能。不只是"怎么问",还要考虑"在什么状态下问"。

对用户:可以开始期待AI能真正"接手"复杂项目,而不只是回答单个问题。

对行业:记忆和上下文管理将成为AI产品的核心差异化点。谁能让AI"记得更久、记得更准",谁就能赢得用户。

AI的记忆革命才刚刚开始。


本文基于谷歌Titans/MIRAS论文(NeurIPS 2025)和Anthropic长时运行智能体框架(2025年11月)整理。

相关推荐
珑墨1 小时前
【AI产品】当下AI产品的变现模式深度分析
人工智能·ai·数据分析·产品运营·aigc·ai编程·ai写作
川石课堂软件测试1 小时前
使用loadrunner调用mysql API进行性能测试
服务器·数据库·python·selenium·mysql·单元测试·自动化
重铸码农荣光1 小时前
AI First + Mobile First:用大模型重构下一代应用开发范式
前端·架构·llm
AI营销资讯站1 小时前
2025年AI内容矩阵工具,谁主沉浮?
人工智能
Python学习导航1 小时前
Python开源项目月排行 2025年10月
开发语言·python
祝余Eleanor1 小时前
Day 30 函数专题2 装饰器
人工智能·python·机器学习·数据分析
张较瘦_2 小时前
[论文阅读] AI + 软件工程 | GenAI 赋能自适应系统:从技术突破到研究蓝图,一文看懂核心价值与挑战
论文阅读·人工智能·软件工程
START_GAME2 小时前
ComfyUI完全指南:从零正确配置GPU运算,彻底解决CPU运行与使用率低问题
人工智能
钛投标免费AI标书工具2 小时前
银奖·钛投标荣获华为技术有限公司主办昇腾AI大赛华中区决赛银奖
人工智能·深度学习·自然语言处理·知识图谱