谷歌：大模型闭环自进化推理的泛化差距

📖标题：On the Generalization Gap in Self-Evolving Language Model Reasoning

🌐来源：arXiv, 2606.01075v2

🛎️文章简介

🔸研究问题：探讨大模型在严格的闭环设定下，完全依靠内部生成的信号进行自我评估和微调，能在多大程度上逼近拥有真实标签监督训练的效果？

🔸主要贡献：论文评估了四种闭环自进化策略，揭示了内部监督与真实标签监督间存在持续性泛化差距，并发现多轮反馈机制在大模型上可显著缩小该差距。

📝重点思路

🔸构建统一离线框架：将多种自进化机制整合进"生成器与验证器"架构中，并利用直接偏好优化算法进行离线微调训练，保证模型训练的稳定性。

🔸采用可控核心测试床：采用"骑士与无赖"逻辑推理任务。利用其拥有确定性答案、且能通过改变问题复杂程度来控制难度的特点，精确衡量模型从简单到复杂的泛化能力。

🔸设计阈值过滤噪声：在单轮验证中，采用基于置信度阈值的多数投票机制，让验证器多次打分，提取高置信度的偏好数据，以缓解模型自身评估不准的问题。

🔸引入多轮修订机制：设计了多轮反馈策略，验证器给出自然语言反馈，生成器据此迭代修改。仅当最初错误的答案被成功修改为正确时，才提取为训练用的偏好数据。

🔸泛化性拓展验证：除逻辑任务外，在真实的数学与推理测试集中进行扩展验证，评估开放性问题中自进化的表现及局限。

🔎分析总结

🔸存在能力天花板：闭环自进化能带来一致的性能提升，但在投入大量算力后会遭遇瓶颈，难以抹平与真实标签监督训练的显著泛化差距。

🔸多轮修订效果最佳：百亿参数级别的大模型在使用多轮修订策略后，性能几乎追平了真实标签监督训练的效果，这表明强大的内在验证和修订能力是闭环自进化成功的关键。

🔸能力门槛效应显著：十亿参数级别的小模型无法有效进行自进化。小模型验证器的召回率低，且多轮修改容易将正确答案改错，从而引入过多噪声。

🔸本质是"锐化"而非"拓荒"：自进化主要提高了模型对已有正确解题路径的确信程度，表现为单次采样准确率显著提升，而多次生成准确率基本不变。它很难拓展出全新的推理能力或实现跨域泛化。

🔸算力分配性价比：在构建数据时，增加验证器的验证次数比单纯增加生成器的候选答案数量，能够取得更高的性价比。

💡个人观点

论文打破了模型能够无限自我提升的迷思，用控制变量法探明了纯闭环自进化的理论天花板。核心启示在于，自进化机制本质上是一种"能力锐化"工具，在构建复杂的自动化技能流时，用高质量外部数据跨越模型的基础能力门槛是不可替代的。只有在模型具备了合格的自我判别能力后，再引入多轮反馈的自进化策略，才是兼顾研发成本与模型最终效果的最优解。