为什么需要遗忘
如果 Agent 将所有我说过的话都记住会是什么场景?
乍一听很合理,作为一个合格好用的 Agent 当然是要将对方说过的话都记住,这样就会越用越聪明,就像人类的也是通过不断的学习记忆进行成长。但事实是这里一个反直觉的现实是,真正真实可靠的 memory 并不是将所有内容都记住就万事大吉。在记住的同时进行遗忘是很重要的事情。 在 Agent 的记忆系统中也同样,遗忘不是缺陷,而是能力。
认知科学和工程实践都有一个结论:即没有遗忘的记忆系统不是更强大,而是更低效。原因很简单,如果所有记忆都以相同权重参与检索,系统面临两个根本性问题:
- 检索质量衰减:新旧记忆在语义空间中相互干扰,高频无关结果稀释了精准匹配。随着记忆体量增长,检索信噪比持续下降。
- 存储成本不可控:无限累积的记忆需要无限存储,且大部分低价值信息永远不会被检索,造成资源浪费。
PowerMem 对于遗忘机制有很精妙的设计,它决定了记忆何时消亡和记忆在检索时的排序权重。我对记忆遗忘机制很感兴趣,所以首先会在这篇文章中先拆解一下背后的认知学科原理,下一篇会再通过跟随一条信息在 PowerMem 中的流转路径来看它是如何走完在代码中的完整生命周期。
1. 大自然的遗忘设计,从神经元到认知系统
1.1 突触可塑性
在神经科学层面,记忆的物质基础是神经元之间的突触连接。

神经元和突触的概念应该大家都很熟悉。连接不是静态的,它受两种对立机制的持续调控:
- 长时程增强(Long-Term Potentiation, LTP) :高频使用某个神经通路时,对应突触连接被强化,这是记住的生物学基础。
- 长时程抑制(Long-Term Depression, LTD) :低频使用某个神经通路时,对应突触连接被削弱,这是遗忘的生物学基础。
但是 LTP 和 LTD 并非对立,而是协同。如果所有突触都被同等强化,神经网络将彻底失去区分信号 与噪音的能力。LTD 通过选择性削弱不活跃连接,将有限的突触资源集中于活跃通路。
遗忘是记忆系统获得分辨力的代价。
1.2 海马体到新皮层的筛选
再进一步的机制是记忆巩固(Memory Consolidation) 。新形成的记忆首先暂存在海马体中;接着在睡眠阶段,大脑通过 记忆重放(Memory Replay) 将海马体中的记忆逐步转移至新皮层进行长期存储。
海马体,这类似于计算机的 RAM,容量有限、读写快速,但保持时间短。

但这个转移不是全量的。只有那些在清醒时被反复激活的、与已有知识建立了丰富关联的、或伴随强烈情绪体验的信息,才能获得优先转移权。孤立、单次、缺乏情绪标记的信息,则在转移过程中自然脱落。
这一步,大自然在记忆巩固阶段自动完成了信息筛选。
这个机制是 PowerMem 三层记忆模型(working → short_term → long_term)的生物学蓝本。
1.3 遗忘不是因为存不进去,而是取不出来
再从认知心理学层面来看,干扰理论(Interference Theory)提供了另一个关键视角。它认为遗忘的主要原因不是记忆消失,而是不同记忆之间发生了相互干扰:
- 前摄干扰:旧记忆干扰新记忆的提取。比如换了新手机号后,旧号码总是不由自主地冒出来。
- 倒摄干扰:新记忆干扰旧记忆的提取。比如学了西班牙语之后,之前学的意大利语单词变得难以回忆。
干扰理论揭示的核心事实是,记忆的困难不在于存不进去,而在于取不出来。 且随着存储信息越来越多,记忆之间的交叉干扰呈指数级增长。
而遗忘机制的作用就是通过衰减低价值记忆,降低检索空间中的干扰密度。
2. 香农的信息论视角:遗忘是一台信息过滤器
2.1 信息量的数学定义
克劳德·香农在 1948 年的奠基性论文《通信的数学理论》中给出了信息的量化定义:
I(x) = -log₂(p(x))
其中 I(x) 是事件 x 的自信息量 ,p(x) 是该事件发生的概率。
公式不重要,核心含义很简洁:一个事件的信息量与其发生概率成反比,越是罕见、出人意料的事件,一旦发生,携带的信息量越大。
2.2 映射到记忆系统
如果将香农的信息量公式映射到记忆系统,很自然的就会得到一条分类逻辑,举个例子:
- 昨天吃的什么早餐 → 每天都在发生,概率 p ≈ 1 → 信息量 I ≈ 0 → 不值得长期存储
- 公司数据库的主密码 → 极少被问及,p 极小 → 信息量 I 极大 → 必须持久化保留
所以一套完善的遗忘机制实质上是一台信息过滤器,它的工作流是:
- 高信息量内容(罕见但关键)→ 被保留并持久化
- 低信息量内容(常见但琐碎)→ 被衰减直至淘汰
- 介于两者之间的内容 → 在连续谱系上平滑过渡
PowerMem 中的三层记忆模型对过滤器的进行了工程实现,遗忘曲线即为这个过滤器提供了时间维度的动态权重。过滤行为会随时间的推移持续演进,而非一次性的静态分类。
3. 艾宾浩斯遗忘曲线
3.1 把记忆变成可测量的数据
艾宾浩斯非常有名。1885 年德国心理学家赫尔曼·艾宾浩斯(Hermann Ebbinghaus)以自己为被试,设计了一套严格的实验,首次将记忆研究从哲学思辨拉进了科学实验室。
为避免已有知识的干扰艾宾浩斯发明了约 2300 个无意义音节进行实验,实验步骤如下:
- 学习:反复背诵 13 个音节组成的列表,直到能连续无误地背两遍。
- 等待:分别在 20 分钟、1 小时、9 小时、1 天、2 天、6 天、31 天后进行测试。
- 测量:使用节省法(savings method)重新学习同一列表,看比第一次少花多少时间。
实验结果清晰地呈现在以下数据中:
| 时间间隔 | 记忆保留率 |
|---|---|
| 刚学完 | 100% |
| 20 分钟 | ~58% |
| 1 小时 | ~44% |
| 9 小时 | ~36% |
| 1 天 | ~33% |
| 2 天 | ~28% |
| 6 天 | ~25% |
| 31 天 | ~21% |
因此得出了两个至今未被推翻的结论:
- 遗忘是先快后慢的指数曲线,而非匀速直线,前 20 分钟丢失约 40%,1 小时内丢掉一半多,之后衰减显著放缓。
- 复习可以改写曲线,间隔复习能让记忆衰减更慢。
3.2 从原始公式到现代指数衰减
艾宾浩斯在 1885 年提出的原始数学拟合公式为:
b = 100k / ((log t)^c + k)
这是一个以对数函数为基础的非线性模型,b 是节省百分比,t 是以分钟为单位的时间,k 和 c 是拟合常数(k ≈ 1.84, c ≈ 1.25)。
这个公式看不懂没关系,因为后来随着记忆衰减研究的深入,研究者发现用更简洁的指数衰减模型同样可以很好地近似记忆保留曲线:
R(t) = e^(-λt)
这个其实才是现代通用的指数衰减公式:
- R(t) :时间 t 时的记忆保留率,代表在经过时间 t 后,还能回忆起多少信息。取值范围 [0, 1]
- e:自然常数( ≈ 2.71828),它是描述自然界中一切"连续、平滑的指数变化"过程的天然数学基础
- λ (lambda):衰减率,它决定了遗忘的速度。 λ 越大,遗忘越快(曲线急剧下降),λ 越小,记忆越稳固(曲线平缓)
- t :即从学习完(或记忆形成后)开始计算的时间间隔,通常以小时为单位
这个公式的图像是一条先快后慢的曲线。

通俗解释,在刚刚学完的一段时间内,记忆流失非常剧烈;随着时间推移,如果不去复习,剩下的东西反而没那么容易忘了,因为已经忘得差不多了。
这些理论都是 PowerMem 中遗忘机制的数学基础。
3.3 为什么指数函数是描述遗忘的最优数学形式
遗忘的核心特征是,遗忘的速度与当前还保留的记忆量成正比。 在记忆刚形成的几分钟,留存率很高(接近 1),遗忘的速度也最快。几小时后,留存率已大幅下降,遗忘的速度也随之放缓。
用微分方程表达就是 dR/dt = -λR------变化速率正比于当前状态量。这个方程的唯一解正是 R(t) = e^(-λt)。
一杯热水的冷却(牛顿冷却定律)、放射性元素的衰变、电容器的放电------这些看似毫不相干的现象,都因为共享"变化率正比于当前量"这一自洽关系,而由同一个指数函数来描述。记忆衰减也不例外。
现代学习算法,包括 SuperMemo、Anki 等间隔重复软件(以及 PowerMem)普遍使用指数衰减模型或其变体,因为它在简洁性、可计算性和与实验数据的拟合度之间取得了最佳平衡。
3.4 间隔重复与理想的困难
艾宾浩斯其实还有另外一个影响深远的发现,即间隔重复可以重置遗忘曲线,而且每次重置后的衰减速度比上一次更慢。
这其实就是文章前面提到过的神经科学中的**记忆再巩固(Memory Reconsolidation)**机制。当一个已经巩固的记忆被主动提取(回忆)时,它会暂时回到一个不稳定的、可塑的状态,然后需要重新巩固(再巩固)。每次提取---再巩固循环都会触发新一轮的蛋白质合成,加强该记忆对应的突触连接。
比较关键的是,再巩固是需要时间来完成了。如果复习间隔太短(例如 5 分钟内连续背诵 10 次),神经系统尚未完成上一次的蛋白质合成和突触重塑,新的提取不会带来额外巩固效果(这就是"填鸭式学习"效率低下的生物学原因)。反之如果间隔太长,记忆已经完全衰减到无法提取,再巩固也无从谈起。
加州大学洛杉矶分校的 Robert Bjork 于 1994 年提出的**"理想的困难"(Desirable Difficulty)** 概念精确描述了这一现象:刚好费力到足以刺激适应的提取,才是最高效的学习方式。
这一概念直接影响了后续所有间隔重复算法的设计,包括 PowerMem 中的复习调度逻辑。
4. PowerMem 的三层记忆架构
4.1 从生物学到代码的映射
好,终于讲到了 PowerMem 的记忆架构。将以上的这些认知科学原理翻译为三个工程层次,即为:
| 层级 | 生物学类比 | 衰减速率倍率 | 典型存活时间 | 晋升条件 |
|---|---|---|---|---|
| working(工作记忆) | 前额叶皮层 | ×2.0 | 数小时~1天 | access≥3 或 importance≥0.6 |
| short_term(短期记忆) | 海马体 | ×1.5 | 数天~数周 | access≥3 或 importance≥0.6 |
| long_term(长期记忆) | 新皮层 | ×1.0 | 数周~数月 | ---(已在顶层) |
分类逻辑以重要性分数为判断依据:
importance ≥ 0.8 → long_term
importance ≥ 0.6 → short_term
importance < 0.6 → working
衰减倍率是核心差异化参数。
在设计上,同样过去 24 小时,一条 working 记忆的衰减倍率是一条 long_term 记忆的 2 倍------重要程度直接决定了信息在系统中的"预期寿命",不重要的信息更快消亡,从而为重要的信息腾出检索空间。
4.2 遗忘管理全局架构
PowerMem 遗忘管理系统的有四个核心组件,其协作关系说明如下:
新信息输入 → ImportanceEvaluator(重要性评估器)
→ EbbinghausAlgorithm(遗忘曲线引擎)
→ EbbinghausIntelligencePlugin(生命周期插件)
├─ on_add():记忆创建时注入遗忘参数
├─ on_get():记忆访问时检查遗忘/晋升/归档
└─ on_search():搜索时批量处理生命周期
→ MemoryOptimizer(记忆优化器)
├─ 精确去重(MD5 哈希)
├─ 语义去重(余弦相似度)
└─ 记忆压缩(LLM 摘要)
- ImportanceEvaluator:判断这条信息有多重要,输出一个 0.0~1.0 的分数
- EbbinghausAlgorithm:提供衰减计算、复习调度、遗忘/晋升/归档决策的纯数学方法
- EbbinghausIntelligencePlugin:在记忆的关键生命周期节点(创建、访问、搜索)注入管理逻辑
- MemoryOptimizer:周期性全局优化,主要是去重与压缩

4.3 遗忘不只是删除
PowerMem 的遗忘机制在检索排序中同样扮演关键角色。搜索结果按照以下公式排序:
final_score = relevance_score × decay_factor
relevance_score是语义匹配度(向量相似度)decay_factor是时间新鲜度(指数衰减值)
由这两个参数决定了最终的排序得分,制造了交叉排序的可能性,比如(示意数据,实际衰减因子取决于 decay_rate 配置):
| 记忆 | 语义匹配度 | 衰减因子 | final_score | 排名 |
|---|---|---|---|---|
| 3小时前的会议记录,语义高度匹配 | 0.92 | 0.62 | 0.57 | 1 |
| 10天前的会议记录,语义完美匹配 | 0.98 | 0.02 | 0.02 | 2 |
| 1分钟前的闲聊,语义中等匹配 | 0.45 | 0.99 | 0.45 | --- |
遗忘不是单纯的删除开关,而是检索质量的调节器。 它确保结果同时考虑了内容匹配度 和时间新鲜度两个维度。
总结:为什么需要遗忘
PowerMem 的故事还没讲完,但是我想重新回到开头。
遗忘是排序的基础, 通过衰减制造差异化,为排序提供了除语义相似度之外的第二个维度。
遗忘使记忆进化, 频繁访问的记忆被不断提升,衰减率逐步降低,通过反复使用将记忆信息不断巩固。
遗忘是连续的,而非二元的。 从 1.0 到 0.0 的连续衰减谱系,允许记忆以自然的方式淡化而非突然消失,这是更符合人类记忆的工作方式,也为未来的优化(软删除、记忆复苏)留下了空间。
大自然是这么设计的,PowerMem 将其翻译成了可以配置、调优、理解的代码。
这很有意思,所以我想用单独的一篇去更详细的拆解,一条信息从进入 PowerMem 到走完重要性评估 → 分类 → 衰减 → 访问触发 → 晋升/遗忘 → 全局优化的全过程,了解到底是怎么去实现的。
PowerMem 的 GitHub 地址:https://github.com/oceanbase/powermem
本文基于 PowerMem v1.1.1 分析撰写,所有代码引用均来自实际项目文件。