谷歌:大模型闭环自进化推理的泛化差距

📖标题:On the Generalization Gap in Self-Evolving Language Model Reasoning

🌐来源:arXiv, 2606.01075v2

🛎️文章简介

🔸研究问题:探讨大模型在严格的闭环设定下,完全依靠内部生成的信号进行自我评估和微调,能在多大程度上逼近拥有真实标签监督训练的效果?

🔸主要贡献:论文评估了四种闭环自进化策略,揭示了内部监督与真实标签监督间存在持续性泛化差距,并发现多轮反馈机制在大模型上可显著缩小该差距。

📝重点思路

🔸构建统一离线框架:将多种自进化机制整合进"生成器与验证器"架构中,并利用直接偏好优化算法进行离线微调训练,保证模型训练的稳定性。

🔸采用可控核心测试床:采用"骑士与无赖"逻辑推理任务。利用其拥有确定性答案、且能通过改变问题复杂程度来控制难度的特点,精确衡量模型从简单到复杂的泛化能力。

🔸设计阈值过滤噪声:在单轮验证中,采用基于置信度阈值的多数投票机制,让验证器多次打分,提取高置信度的偏好数据,以缓解模型自身评估不准的问题。

🔸引入多轮修订机制:设计了多轮反馈策略,验证器给出自然语言反馈,生成器据此迭代修改。仅当最初错误的答案被成功修改为正确时,才提取为训练用的偏好数据。

🔸泛化性拓展验证:除逻辑任务外,在真实的数学与推理测试集中进行扩展验证,评估开放性问题中自进化的表现及局限。

🔎分析总结

🔸存在能力天花板:闭环自进化能带来一致的性能提升,但在投入大量算力后会遭遇瓶颈,难以抹平与真实标签监督训练的显著泛化差距。

🔸多轮修订效果最佳:百亿参数级别的大模型在使用多轮修订策略后,性能几乎追平了真实标签监督训练的效果,这表明强大的内在验证和修订能力是闭环自进化成功的关键。

🔸能力门槛效应显著:十亿参数级别的小模型无法有效进行自进化。小模型验证器的召回率低,且多轮修改容易将正确答案改错,从而引入过多噪声。

🔸本质是"锐化"而非"拓荒":自进化主要提高了模型对已有正确解题路径的确信程度,表现为单次采样准确率显著提升,而多次生成准确率基本不变。它很难拓展出全新的推理能力或实现跨域泛化。

🔸算力分配性价比:在构建数据时,增加验证器的验证次数比单纯增加生成器的候选答案数量,能够取得更高的性价比。

💡个人观点

论文打破了模型能够无限自我提升的迷思,用控制变量法探明了纯闭环自进化的理论天花板。核心启示在于,自进化机制本质上是一种"能力锐化"工具,在构建复杂的自动化技能流时,用高质量外部数据跨越模型的基础能力门槛是不可替代的。只有在模型具备了合格的自我判别能力后,再引入多轮反馈的自进化策略,才是兼顾研发成本与模型最终效果的最优解。