相信大家都经历过这样的疑惑,在使用 AI 的过程中,为什么我明明都纠正过它的问题,但是它下次还是依然会犯同样的错误,以至于我们不得不针对性写大量的规则来约束整个 Vibe Coding 的过程。
但是就算有详细的 rule ,有些倔强的模型依然喜欢我行我素,比如 Gemini 3 Pro 就容易出现, 写的太详细的 prompt ,效果居然不如模糊的,你纠正他,他会先肯定你,然后说还是该按照我的来····
问题
谷歌这次公布的论文很直观的解释了这个问题:因为大模型无法在训练后继续学习 ,论文把当前的大型语言模型(LLM)被比作患有 "顺行性遗忘症"(Anterograde Amnesia) 的病人 ,这种病人只能保留发病前的长期记忆,无法形成新的长期记忆,只能依靠短暂的短期记忆生活。

具体可以解释为以下三点:
A. "数字失忆症":只有两极,没有中间态
目前的模型只有两种记忆状态,中间存在巨大的断层:
- 极快且短暂的记忆 (In-Context Learning): 也就是你的
Prompt或上下文窗口,这部分通过注意力机制(Attention)处理,更新极快,但这只是"临时的",一旦窗口关闭或超出长度,信息就消失了 ,这也是为什么它并能吸取你的教训的原因 - 冻结的长期记忆(Pre-trained Weights): 对应的是模型的
MLP层(参数),这部分是在预训练阶段通过海量数据"固化"下来的,一旦部署了,这些参数就是静态的,无法更改 。
而目前的问题在于:当前模型缺乏将"即时对话"转化为"长期参数"的机制,也就是它们缺乏中间的频谱:那些应该从短期逐渐变为长期的记忆。
B. 维度单一:只堆叠了"深度",忽略了"时间"
在论文里,传统的"深度学习"主要关注堆叠更多的层(Depth)来增加容量 ,但这一维度是静态的。
研究人员发现真正的学习需要正交的另一个维度:时间(或频率) ,大脑并不是以统一的速度更新所有神经元的,而是以不同的频率(脑波)运作,而目前的 LLM 就像是一个强制所有楼层都静止不动的建筑,只有最顶层的"接待处"(Context)在工作。
C. 优化器与架构的分离
在传统深度学习中,架构 (如 Transformer)和优化器(如 Adam)被看作是两个独立的东西,架构负责推理,优化器负责在训练时更新参数。
而论文的颠覆性观点是: 优化器本质上也是一种联想记忆模块(Associative Memory) ,目前的模型在部署后丢弃了优化器,导致它们失去了"自我修改"和"压缩梯度"的能力,从而失去了学习能力。
解决办法
为了解决这个问题,谷歌提出了一种新的范式,不再把模型看作一个扁平的神经网络,而是看作一组嵌套的优化问题。

A. 核心理念:连续记忆频谱 (Continuum Memory System)
就像人类大脑有不同频率的脑波(Delta波、Theta波、Alpha波等)分别负责不同层级的记忆整合一样 ,模型也应该有不同更新频率的组件。
-
传统模型: 频率只有 0 (冻结的参数)和 ♾️(极快的 Attention)。
-
嵌套学习模型: 创建一个:
- Level 1 (极快): 处理当前的 Token。
- Level 2 (中等): 每隔 16 个 Token 更新一次,捕捉短期上下文
- Level 3 (慢速): 每隔 100万 Token 更新一次,捕捉长期知识
- Level 4 (极慢): 类似目前的预训练知识
例如,左图(Deep Learning)展示了通常理解的深度学习模型(如 RNN + Attention),是一个扁平的序列 ,这种视角隐藏了内部的梯度流动 。
而右图(Neural Learning Module):*是论文的核心视角,它将模型看作一个个嵌套的立方体,每一个立方体代表一个"优化问题" ,从而实现不同 Level 的连续频谱,每一层都有自己的梯度流(Gradient Flow)和更新目标。

也就是 "层(Layer)"不仅仅是空间的堆叠,而是时间上的嵌套,解释了为什么模型应该包含"内部优化器":即模型在推理时,内部的小盒子应该在不断自我优化。
B. 新架构:HOPE (Self-Modifying Titans + Continuum Memory)
论文作者提出了 HOPE 的具体实现模型,它结合了两个关键技术:
- 自我修改的 Titans** (Self-Modifying Titans)
模型不再依赖外部的优化器(如 Adam)来告诉它如何更新,而是学习如何修改自己,模型内部包含了一个"学习模块",它能在运行时计算梯度并更新自己的参数,这意味着模型在和你对话的过程中,实际上在微调它自己的部分结构
- 多级 MLP 系统
HOPE 使用了一系列嵌套的 MLP(多层感知机)块,每个块有不同的"块大小"(Chunk Size)和更新频率:
- 有些层更新得很快,负责记住刚才的对话
- 有些层更新得很慢,负责沉淀知识
组合起来,就构成了"梯度记忆曲线" 。

对比 Transformer 的极端频率,可以看出来 HOPE (左侧)这是一个连续的频谱,
- High Frequency FFN:块大小(Chunk Length)为 16,更新频率高 。
- Mid Frequency FFN:块大小为 1M(一百万),更新频率中等。
- Low Frequency FFN:更新极慢 。
从而解决"无法继续学习"的问题,展示了如何填补"短期记忆"和"长期记忆"之间的空白,创建了不同速率的记忆层级。
C. 深度优化器 (Deep Optimizers)
论文证明了动量梯度下降(Momentum SGD)本质上是一个 2 级的联想记忆系统 ,HOPE 利用这一发现,设计了更具表达能力的优化器,使其成为模型本身的一部分,而不是训练完就扔掉的工具。
实验结果与意义
在实验中,HOPE 模型(760M 和 1.3B 参数量)在语言建模和常识推理任务上,击败了同等规模的 Transformer++、RetNet 和 Mamba (Titans) , 更重要的是它展示了更低的困惑度(Perplexity),证明了这种"动态更新"机制的有效性。

另外论文的意义不仅仅在于提出了一个新模型,而在于它挑战了"深度学习"这个名字本身 :
- 从"深度"到"嵌套": 未来的 AI 竞争可能不再单纯是堆叠层数和参数规模(Scale),而是设计更合理的时间更新频率(Time/Frequency)
- 终身学习 (Lifelong Learning): 如果 HOPE 架构被规模化,也许可以会看到真正的"养成系" AI,它不会在发布那天就停止成长,而是通过每一次交互,将信息从短期记忆逐渐渗透到长期记忆中,真正解决"灾难性遗忘"和"无法持续学习"的痛点。
总结起来,之前的 ChatGPT 和 Gemini 像是一个只有"此时此刻"和"出厂设置"的机器;而 Google 提出的 HOPE 架构,试图赋予 AI "从此刻走向永恒"的记忆能力,让模型在运行中通过自我修改来持续进化。
而实际上对应之前 Deepseek 利用图片来压缩记忆的实现,也是在记忆时效性上的探索。
最后
从这个角度看,能"吃一堑长一智"的 AI 也许离我们就不远了,不过可以猜测,这种实现也有这相应的局限性问题需要处理,例如 HOPE 架构的核心在于"模型在推理过程中修改自己" ,这意味着它不能像传统 Transformer 那样只进行简单的矩阵乘法,还需要进行梯度的计算和参数更新,也就是:
- 更多的性能开销,例如额外的 MLP 运算和实时梯度计算
- 更多的内存占用,比如 HOPE 需要存储"优化器状态" 和管理状态大小
- HOPE 要求参数在
Forward过程中动态变化 ,这种"自我修改"的代码实现难度大,且难以利用现有的底层 Kernel 优化 - 多嵌套下的梯度流管理和独立问题
- ·····
最后,本文解读主要参考 Gemini 分析。