体验式强化学习：让模型学会“吃一堑长一智“

体验式强化学习：让模型学会"吃一堑长一智"

一句话总结：论文提出 ERL（Experiential Reinforcement Learning），在强化学习中嵌入"尝试-反思-改进"的显式循环，将稀疏反馈转化为结构化的行为修正，在复杂任务上实现了高达 81% 的性能提升。

📖 开篇：稀疏奖励的困境

强化学习有个老毛病：反馈太稀疏了。

想象一下，你让一个机器人学下棋。传统强化学习的做法是：机器人走了一步，环境说"不对，输了"，然后呢？机器人只能自己琢磨：是哪一步走错了？是开局的问题还是中盘的问题？它完全不知道。

这就是信用分配问题（Credit Assignment）------当奖励信号稀疏且延迟时，模型必须隐式地推断"失败应该转化为什么样的行为改变"。这个推断过程对大模型来说极其困难。

人类是怎么学习的？我们失败后会反思："刚才那步棋走得太急了，应该先稳固防守"。这种显式的反思把模糊的"失败"转化成了具体的"改进方向"。

论文作者的想法是：既然人类靠反思学习，为什么不把这个能力教给大模型？

🧠 核心洞察：三种学习范式的对比

论文把现有的学习方法分成三类：

图1：三种学习范式的对比------从直接学习到强化学习再到体验式学习

范式	核心机制	问题
直接学习（SFT）	从正确答案学习	需要高质量标注数据
强化学习（RLVR）	从环境奖励学习	稀疏奖励下难以信用分配
体验式学习（ERL）	从失败反思中学习	将反馈转化为显式修正

传统 RLVR 的问题是：模型拿到一个"0分"，只知道"错了"，但不知道"错在哪"。

ERL 的思路是：让模型自己生成一份"错题分析"，然后用这份分析指导下一次尝试。这就像学生做完试卷后，老师不讲题，但让学生自己写一份"我为什么错了，下次怎么做"的反思报告。

🏗️ ERL 架构：尝试-反思-巩固的三部曲

核心流程

ERL 的训练循环包含四个关键步骤：

图2：ERL 的完整训练流程------首次尝试、自我反思、二次尝试、经验内化

第一步：首次尝试

模型面对任务 xxx，生成初始回答 y(1)y^{(1)}y(1)。环境返回反馈 f(1)f^{(1)}f(1) 和奖励 r(1)r^{(1)}r(1)。

如果奖励够高（r(1)≥τr^{(1)} \geq \taur(1)≥τ），直接进入强化学习更新。如果不够，进入反思环节。

第二步：自我反思

这是 ERL 的核心创新。模型不是盲目重试，而是先生成一份反思 Δ\DeltaΔ：

Δ∼πθ(⋅∣x,y(1),f(1),r(1),m)\Delta \sim \pi_\theta(\cdot \mid x, y^{(1)}, f^{(1)}, r^{(1)}, m)Δ∼πθ(⋅∣x,y(1),f(1),r(1),m)

这里 mmm 是跨周期记忆（Cross-Episode Memory），存储了之前成功的修正模式。模型可以参考"上次类似情况我是怎么改对的"。

第三步：二次尝试

模型利用反思 Δ\DeltaΔ 作为指导，生成改进后的回答 y(2)y^{(2)}y(2)：

y(2)∼πθ(⋅∣x,Δ)y^{(2)} \sim \pi_\theta(\cdot \mid x, \Delta)y(2)∼πθ(⋅∣x,Δ)

如果这次成功了，就把反思 Δ\DeltaΔ 存入记忆 mmm，供以后参考。

第四步：经验内化

这是论文的另一个关键设计：把反思引导的成功行为"内化"到基础策略中。

通过自蒸馏，训练模型仅根据原始输入 xxx 就能直接输出改进后的回答 y(2)y^{(2)}y(2)：

Ldistill(θ)=−E[I(r(2)>0)log⁡πθ(y(2)∣x)]\mathcal{L}{\text{distill}}(\theta) = -\mathbb{E}\left[\mathbb{I}(r^{(2)} > 0) \log \pi\theta(y^{(2)} \mid x)\right]Ldistill(θ)=−E[I(r(2)>0)logπθ(y(2)∣x)]

这意味着：部署时不需要额外的反思步骤，但训练时学到的"改进能力"被保留了下来。

为什么不是简单的"重试"？

论文做了一个关键对比：

图3：RLVR 是盲目的"试错-忘记-试错"；ERL 是有意识的"试错-反思-改进-内化"

RLVR 的问题在于：每次失败后，模型只是随机尝试另一个方向。上次犯的错误没有被"记住"，也没有被"分析"。就像一个人考试，每次都凭感觉蒙，从不看错题。

ERL 强制模型在失败后写"反思报告"。这份报告把模糊的"失败"变成了具体的"哪里错了、怎么改"。这种结构化的修正信号比单纯的奖励信号有价值得多。

门控机制：成功的案例不要乱改

论文还设计了一个门控反思机制 ：只有当首次尝试失败（r(1)<τr^{(1)} < \taur(1)<τ）时才触发反思。

这避免了"过度优化"的问题------如果第一次就做对了，强制反思反而可能画蛇添足。这个设计体现了作者对训练稳定性的考量。

🔧 训练方法：GRPO + 跨周期记忆

ERL 使用 GRPO（Group Relative Policy Optimization）作为底层优化器。GRPO 是 DeepSeek 团队提出的强化学习算法，特点是省掉了 Critic Model。

传统的 PPO 需要一个价值网络来估计"这个动作好不好"，训练成本高。GRPO 的思路是：对同一个问题生成多个候选答案，在组内做相对比较，用组均值和标准差来归一化奖励，计算相对优势。

ERL 在这个基础上做了两件事：

将反思和二次尝试纳入训练目标：不是只优化首次尝试，而是让整个"尝试-反思-改进"链条都参与梯度更新。
跨周期记忆：把成功的反思模式存起来，后续训练可以复用。这有点像"错题本"------同样的错误不要犯两次。

🧪 实验结果：复杂任务上碾压式优势

任务设置

论文选了三个具有稀疏奖励特点的任务：

任务	描述	奖励设置
FrozenLake	网格导航，避开洞口走到终点	到达终点得 1.0，否则 0.0
Sokoban	推箱子谜题	解开得 1.0，否则 0.0
HotpotQA	多跳问答，需要检索工具	精确匹配得 1.0，F1≥0.3 给比例奖励

前两个任务的特点是：奖励极度稀疏，模型必须在长序列动作后才能知道结果。这正好测试 ERL 的核心能力------从稀疏反馈中学习。

学习效率对比

图4：ERL 的学习效率显著高于 RLVR，尤其是在 Sokoban 任务上

从训练曲线可以看出：

FrozenLake：ERL 收敛更快，最终性能略高
HotpotQA：两者差距不大（因为这个任务的反馈相对密集）
Sokoban：ERL 完胜，RLVR 几乎学不动

Sokoban 是最难的------需要长视野规划，一步走错可能全局皆输。RLVR 在这种场景下完全迷失，而 ERL 通过反思机制找到了改进路径。

最终性能对比

图5：ERL 在所有任务上均优于 RLVR，Sokoban 上差距最大

模型	任务	RLVR	ERL	提升
Qwen3-4B	FrozenLake	0.86	0.94	+8%
	HotpotQA	0.45	0.56	+11%
	Sokoban	0.06	0.87	+81%
Olmo-3-7B	FrozenLake	0.39	0.66	+27%
	HotpotQA	0.47	0.50	+3%
	Sokoban	0.04	0.20	+16%

Sokoban 上的 81% 提升是最惊人的。这说明在需要复杂规划和错误恢复的场景中，结构化反思机制的价值被放大了。

反思前后的性能变化

论文还比较了反思前后（Pre-refl. vs Post-refl.）的性能：

图6：二次尝试（Post-refl.）的性能明显高于首次尝试（Pre-refl.），证明反思确实有效

在 Qwen3-4B 上，反思后的性能在三个任务上分别提升了约 10%、15% 和 60%。这直接证明了反思机制的有效性------它不是白费力气，而是真的帮模型找到了更好的答案。

📊 消融实验：反思和记忆谁更重要？

图7：移除反思导致性能大幅下降，移除记忆影响较小

变体	核心区别	性能影响
ERL（完整版）	反思 + 记忆	最优
ERL w/o Mem.	无跨周期记忆	略有下降
ERL w/o Refl.	无结构化反思（只有重试）	大幅下降

关键发现：

反思比记忆重要得多。

移除记忆后，性能只在小幅下降。但移除反思后，性能暴跌。这说明：单纯的"再试一次"是不够的。模型需要显式的反思来指导改进方向，否则就是盲目重试。

💡 我的观点

这个工作的亮点

1. 直觉清晰：把"吃一堑长一智"算法化

"从失败中学习"是人类的核心学习能力。ERL 把这个过程形式化了：失败 → 反思 → 改进 → 内化。这个框架简洁而有力。

2. 零推理成本的设计

很多反思类方法（如 Reflexion、Self-Refine）在推理时需要多轮迭代，增加了延迟和成本。ERL 通过"内化"步骤，把反思能力蒸馏到基础策略中，部署时不需要额外开销。这是一个工程上很务实的设计。

3. 与 GRPO 的良好兼容

ERL 没有发明新的优化器，而是基于 GRPO 做扩展。这意味着它可以被快速集成到现有的 RL 训练流程中。

需要关注的问题

1. 反思质量的上限

反思的质量取决于模型本身的能力。如果模型对某个领域理解不足，它生成的反思可能也是错的。这就像让一个不懂棋的人写棋谱------反思本身可能误导后续尝试。

论文没有深入讨论"反思错误"的情况。在实际应用中，可能需要引入外部验证机制来检查反思的正确性。

2. 计算成本翻倍

ERL 的训练成本大约是 RLVR 的两倍------每个任务要生成两次尝试加一次反思。虽然论文声称计算量相当（ERL 每次生成 4 个样本，RLVR 生成 10 个），但这种比较是否公平还有待商榷。

3. 记忆的负面效应

消融实验中有个有趣的发现：Olmo-3-7B 在 Sokoban 任务上，无记忆版本反而比完整版略好。作者的解释是：早期不准确的反思被记忆传播后反而阻碍了学习。

这提醒我们：记忆是把双刃剑。如果早期的反思质量不高，记忆可能成为"包袱"而非"财富"。引入记忆老化或质量过滤机制可能是必要的。

与其他反思方法的对比

方法	反思时机	推理成本	训练成本
Reflexion	推理时反思	高	低
Self-Refine	推理时迭代	高	低
ERL	训练时反思	低	高

ERL 的定位很清晰：用训练时的计算换取推理时的效率。如果你的应用场景对延迟敏感，ERL 是更好的选择；如果你有充足的推理预算，Reflexion 可能更灵活。

工程落地的思考

如果要落地 ERL，我会关注以下几点：

反思模板设计：论文没有详细展示反思的格式。在实际应用中，可能需要设计结构化的反思模板（如"错误原因 → 改进策略"），帮助模型生成高质量的反思。
记忆管理策略：跨周期记忆需要管理。可以考虑引入记忆淘汰机制，删除过时或低质量的反思。
多轮反思：论文只设计了一次反思。在更复杂的任务中，可能需要多轮反思循环。但这会增加训练复杂度。
与其他技术的结合：ERL 可以和其他 RL 技术结合，比如奖励塑形（Reward Shaping）、课程学习（Curriculum Learning）等，进一步提升学习效率。

🔗 相关工作对比

方法	核心机制	特点
RLVR	直接从奖励学习	简单但稀疏奖励下效果差
Reflexion	推理时自我反思	提升推理效果但增加延迟
Self-Refine	迭代式自我修正	需要多轮推理
Reward Shaping	设计密集奖励	需要领域知识
ERL	训练时反思 + 内化	零推理成本

ERL 的独特价值在于：它不需要人工设计奖励函数，也不增加推理成本，却能从稀疏反馈中高效学习。

📚 总结

ERL 的核心贡献是：把"反思"从一个推理时的技巧变成了训练时的能力。

通过显式的"尝试-反思-改进"循环，模型学会了把模糊的失败信号转化为具体的行为修正。这些修正通过内化蒸馏到基础策略中，在部署时无需额外开销。

用一句话概括：失败不可怕，可怕的是失败了不知道为什么。ERL 让模型学会了写"错题本"。

当强化学习遇到稀疏奖励瓶颈时，显式反思可能是打破僵局的关键。

论文信息：

标题：Experiential Reinforcement Learning
arXiv：https://arxiv.org/abs/2602.13949
作者：Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao