Seed Prover及相关强化学习核心方法技术报告

摘要

本报告系统梳理字节跳动Seed团队研发的Seed Prover自动化定理证明系统、其核心训练框架VAPO算法,以及支撑VAPO价值估计的三大核心方法------蒙特卡洛(Monte Carlo, MC)、时序差分学习(Temporal Difference, TD)、广义优势估计(Generalized Advantage Estimation, GAE)。报告重点突出各技术的核心原理、创新点及协同关系,聚焦长链推理(定理证明)场景的技术适配的优化,详略得当,兼顾严谨性与逻辑性,清晰呈现"落地系统(Seed Prover)-核心框架(VAPO)-基础方法(MC/TD/GAE)"的完整技术链条。

1. 引言

自动化数学定理证明是长链推理(Long-CoT)任务的典型代表,面临价值模型偏差、异构序列长度、奖励信号稀疏三大核心挑战。字节跳动Seed团队针对性研发了Seed Prover自动化定理证明系统,其核心训练依赖VAPO(Value-based Augmented Proximal Policy Optimization)强化学习框架;而VAPO的核心突破的在于长链推理的价值估计优化,整合了蒙特卡洛、TD、GAE三种方法的优势,通过定制化改造(如λ=1.0蒙特卡洛价值预训练、解耦GAE等),解决了传统强化学习在定理证明场景的适配难题,实现了IMO级别竞赛的银牌突破。本报告围绕上述核心技术,按"系统-框架-方法-关联"的逻辑展开,重点突出技术创新与实际应用。

2. 核心落地系统:Seed Prover

2.1 核心定位与基础概述

Seed Prover是字节跳动Seed AI4Math团队于2025年7月推出的基于引理风格的全证明推理模型,专注于使用Lean 4进行形式化数学定理证明,核心定位是解决IMO级别数学竞赛问题的自动化定理证明系统,核心组件包括Seed-Prover主模型与Seed-Geometry几何推理引擎。其核心创新在于将引理置于推理过程的中心,采用全证明生成与迭代优化相结合的方法,区别于传统分步证明器和单次全证明生成模型。

2.2 核心架构与工作流程

Seed Prover的整体架构以"猜想-引理-证明"为核心链路,流程如下:

输入问题 → 猜想生成器 → 猜想池 → 轻量级证明验证 → 引理池 → 中量级优化(难引理专项攻克) → 重量级综合推理 → 完整证明输出

核心模块包括猜想生成器(广度探索候选性质)、证明生成器(基于引理池生成全证明代码)、反馈处理模块(解析Lean编译器信号)、引理管理系统(维护引理池)、推理调度器(根据难度选择推理模式),以及专用的Seed-Geometry几何推理引擎(解决Lean几何支持不足问题,结合神经符号推理,实现100倍速度提升)。

2.3 关键性能与版本升级

Seed Prover在竞赛级场景中表现突出:IMO 2025完整证明5/6题获银牌(30分),往届IMO成功率达78.1%,MiniF2F准确率达99.6%,PutnamBench准确率超50%;2025年12月发布的1.5版本升级为Agentic智能体架构,强化工具使用能力,IMO 2025表现提升至金牌(35/42分),PutnamBench准确率达88%,推理效率大幅提升。

2.4 核心依赖

Seed Prover的高效训练与推理,核心依赖VAPO强化学习框架,其价值估计、策略更新均基于蒙特卡洛、TD、GAE三种方法的协同与定制化改造,解决了长链推理、稀疏奖励场景下的训练稳定性与样本效率问题。

3. 核心训练框架:VAPO算法

3.1 核心定位与基础概述

VAPO(Value-based Augmented Proximal Policy Optimization)是字节跳动Seed团队于2025年4月提出的基于价值的增强近端策略优化框架,专为长链推理任务设计,核心目标是解决传统PPO在长序列推理中面临的价值模型偏差、异构序列长度、奖励信号稀疏三大核心挑战,首次实现基于价值的RL方法在长CoT任务上显著超越无价值方法。

VAPO基于PPO算法,整合VC-PPO、DAPO、GRPO等方法的技术优势,基准表现突出:AIME 2024数据集60.4分(SOTA),超越DAPO和DeepSeek-R1-Zero 10+分,5000步内可达SOTA性能,稳定性高,核心应用场景为数学定理证明(Seed Prover)、复杂推理、代码生成等长CoT任务。

3.2 核心创新技术(重点突出价值估计相关)

VAPO的七大核心创新技术中,与价值估计(蒙特卡洛、TD、GAE相关)的技术是重点,也是其适配长链推理的关键,具体如下:

3.2.1 价值预训练(Value Pretraining)

核心解决价值模型初始化偏差导致的训练不稳定问题,采用λ=1.0的蒙特卡洛回报训练价值模型,用固定SFT策略生成响应,以蒙特卡洛回报(λ=1.0)训练价值模型至价值损失和解释方差达到低阈值,保存检查点用于后续RL训练,消除奖励模型带来的偏差,为RL训练提供可靠起点。

3.2.2 解耦GAE(Decoupled-GAE)

针对长序列中奖励衰减、价值与策略更新对λ参数需求不同的问题,实现价值更新与策略更新的λ参数解耦:价值更新采用λ_critic=1.0(纯蒙特卡洛),确保奖励完整传播、价值估计无偏;策略更新采用较小λ(默认0.95),加速收敛、降低方差,兼顾准确性和效率。

3.2.3 长度自适应GAE(Length-Adaptive GAE)

VAPO最核心的创新,针对异构序列长度问题,动态调整策略更新的λ参数,公式为:λ_policy = 1 - 1/(α·l)(α=0.05为超参数,l为序列长度)。长序列(l>100)λ接近1.0,低偏差、可接受高方差,确保奖励信号完整传回早期标记;短序列λ较小(如0.9),低方差、可接受小偏差,提供稳定学习信号,统一长短序列的优势估计质量。

3.2.4 其他辅助创新技术

包括Clip-Higher(非对称裁剪范围,鼓励探索,避免熵崩溃)、标记级策略梯度损失(增加长序列优化权重)、正例语言模型损失(最大化正确样本效用,减少试错成本)、组采样(提供丰富对比信号,提升正确答案采样概率),均为辅助价值估计与策略更新,适配稀疏奖励场景。

3.3 训练流程与核心适配

VAPO的训练流程分为价值预训练和RL训练主循环,核心适配Seed Prover的定理证明场景:

  1. 价值预训练阶段:固定SFT策略生成数据 → 蒙特卡洛回报(λ=1.0)训练价值模型 → 保存检查点;

  2. RL训练主循环:组采样生成轨迹(512提示×16次)→ Lean编译器提供二元奖励(+1成功/-1失败)→ 长度自适应GAE计算优势 → 标记级PPO损失+正例LM损失更新策略 → 解耦GAE(λ=1.0)更新价值模型 → 重复直至收敛。

在Seed Prover中的适配重点的:采用二元奖励机制解决奖励稀疏问题,奖励函数中加入格式惩罚鼓励引理生成,为超难问题生成简化变体辅助训练,与Seed-Geometry引擎结合处理几何符号推理。

4. 核心价值估计方法(重点突出VAPO/Seed Prover适配)

长链推理的核心难点之一是价值估计,蒙特卡洛(MC)、时序差分学习(TD)、广义优势估计(GAE)是三大核心方法,VAPO对其进行了定制化改造,使其适配Seed Prover的定理证明场景(长链、稀疏奖励),三者协同构成VAPO价值估计的核心体系。

4.1 蒙特卡洛方法(Monte Carlo, MC)

4.1.1 核心本质与基础原理

蒙特卡洛方法的核心是通过随机抽样+统计平均逼近真实值,理论基础是大数定律,无需依赖环境模型,仅通过完整轨迹的真实奖励进行价值估计。在强化学习中,蒙特卡洛回报(MC Return)是t时刻到轨迹结束的所有奖励的折扣和,公式为:

G_t = \\sum_{k=t}\^T \\gamma\^{k-t} r_k

其中γ∈[0,1]为折扣因子,定理证明场景中γ=1(无时间衰减)。

4.1.2 重点应用:λ=1.0训练价值模型(VAPO价值预训练)

λ=1.0的蒙特卡洛回报即纯蒙特卡洛回报,核心特点是无偏、方差大,无需自举(仅依赖完整轨迹的真实奖励),是VAPO价值预训练的核心方法,适配定理证明的稀疏奖励场景:

  1. 定理证明场景适配:奖励极端稀疏,r₁=r₂=...=r_{T-1}=0,r_T=R∈{+1,-1},此时λ=1.0的MC回报简化为$$V_t^{\text{target}} = R, \forall t=1,2,...,T$$,即整条推理链每一步状态的价值均等于最终真实奖励;

  2. 价值模型训练目标:价值模型$$V_\theta(s)$$拟合MC回报,采用均方误差(MSE)损失,公式为$$\mathcal{L}{\text{value}}(\theta) = \mathbb{E}{\tau \sim \pi_{\text{fixed}}}\left[ \frac{1}{T}\sum_{t=1}^T \big(V_\theta(s_t) - V_t^{\text{target}}\big)^2 \right]$$,其中$$\pi_{\text{fixed}}$$为固定SFT策略(不更新,仅生成轨迹);

  3. 训练流程:冻结SFT策略→批量生成完整轨迹→为每一步分配MC回报标签(均为R)→MSE训练价值模型→保存检查点。

4.1.3 优缺点与VAPO弥补措施

优点:无偏性,适配超长序列和极端稀疏奖励,不依赖环境模型,是长链推理价值估计的可靠基础;缺点:方差大,必须依赖完整轨迹,样本效率低。VAPO的弥补措施:多抽样进行价值预训练、组采样提升对比信号、正例LM损失提升样本效率。

4.2 时序差分学习(Temporal Difference, TD)

4.2.1 核心本质与基础原理

TD的核心是"蒙特卡洛采样思想+动态规划自举思想",无需等轨迹结束,用"即时奖励+下一个状态的价值估计"更新当前价值,特点是有偏、方差小、在线学习、训练快。其核心概念包括:

  1. 自举(Bootstrapping):用自身对未来的价值估计更新当前价值,区别于MC仅依赖真实奖励;

  2. TD目标:单步TD(0)的目标为$$G_t^\text{TD} = r_t + \gamma \cdot V(s_{t+1})$$;

  3. TD误差:$$\delta_t = G_t^\text{TD} - V(s_t) = r_t + \gamma V(s_{t+1}) - V(s_t)$$;

  4. 更新规则:$$V(s_t) \leftarrow V(s_t) + \alpha \cdot \delta_t$$(α为学习率)。

TD(λ)是TD的扩展,将所有n步TD回报加权平均,λ=0对应纯TD(0),λ=1对应纯MC,构成TD与MC的连续统一。

4.2.2 在VAPO/Seed Prover中的角色

TD的致命缺点是长链场景下偏差爆炸(每一步偏差层层叠加),无法单独用于Seed Prover的价值模型训练;但其方差小、训练快的优点被GAE整合,作为VAPO策略更新中优势估计的基础(GAE本质是TD残差的加权求和),不单独使用,仅作为GAE的核心组件发挥作用。

4.3 广义优势估计(Generalized Advantage Estimation, GAE)

4.3.1 核心本质与基础原理

GAE的核心是用λ参数实现TD与MC的连续统一,通过调节λ参数精准平衡偏差-方差权衡,是现代RL算法(PPO/VAPO)的核心组件,目标是计算优势函数$$A_t = Q(s_t, a_t) - V(s_t)$$(衡量动作比平均水平好多少)。

GAE的核心公式为TD残差的加权求和:

A_t\^{\\text{GAE}(\\lambda)} = \\sum_{k=0}\^{T-t-1} (\\gamma \\lambda)\^k \\delta_{t+k}

其中$$\delta_t$$为TD残差,定理证明场景中γ=1,公式简化为$$A_t^{\text{GAE}(\lambda)} = \delta_t + \lambda \delta_{t+1} + \lambda^2 \delta_{t+2} + ... + \lambda^{T-t-1} \delta_{T-1}$$。

λ参数的核心作用:λ=0→纯TD(方差最小、偏差最大);λ=1→纯MC(无偏、方差最大);0<λ<1→混合模式,平衡两者优点。

4.3.2 VAPO对GAE的定制化创新(重点)

标准GAE的缺陷是价值更新与策略更新共用一个λ,无法适配长链推理的异构序列问题,VAPO提出两大创新变种,使其成为Seed Prover策略更新的核心:

  1. 解耦GAE(Decoupled-GAE):价值模型更新用λ_critic=1.0(纯MC,保证无偏),策略模型更新用λ_policy=0.95(混合模式,降低方差),适配价值与策略的不同需求;

  2. 长度自适应GAE(Length-Adaptive GAE):λ_policy随序列长度动态调整,公式为$$\lambda_{\text{policy}} = 1 - \frac{1}{\alpha \cdot l}$$(α=0.05),长序列λ接近1.0(减少偏差),短序列λ较小(降低方差),自动适配异构序列长度。

4.3.3 在Seed Prover中的应用

GAE计算的优势是Seed Prover策略梯度更新的核心输入,驱动模型学习最优证明步骤;结合Lean的二元奖励,将最终奖励传递到每一步,帮助模型识别证明过程中的关键步骤和错误;同时融入引理格式惩罚,引导模型优先生成引理,提升证明效率。

4.4 三大方法核心对比(重点突出适配性)

对比维度 蒙特卡洛(λ=1) 时序差分(λ=0) GAE(0<λ<1,VAPO变种)
偏差 无偏 最大 可控(λ越大,偏差越小)
方差 最大 最小 可控(λ越大,方差越大)
更新时机 需完整轨迹 一步即可更新 需完整轨迹(反向累加计算)
长链适配性 好(无偏,无偏差爆炸) 差(偏差爆炸) 极好(VAPO自适应λ,兼顾无偏与稳定)
VAPO/Seed Prover应用 价值模型预训练/更新 不单独使用,作为GAE组件 策略模型更新(长度自适应λ)

5. 核心技术关联与协同机制(重点)

上述核心技术并非独立存在,而是形成"落地场景-训练框架-价值估计"的协同体系,所有技术的核心目标均为解决Seed Prover的长链、稀疏奖励、异构序列三大问题,协同机制如下:

  1. Seed Prover作为落地载体,提出引理式证明、三层推理策略等需求,驱动VAPO框架及价值估计方法的定制化改造;

  2. VAPO作为核心训练框架,整合蒙特卡洛、TD、GAE三大方法,通过解耦GAE、长度自适应GAE等创新,解决长链推理的价值估计难题,为Seed Prover提供稳定、高效的训练支撑;

  3. 蒙特卡洛(λ=1.0)负责价值模型的无偏预训练,解决价值初始化偏差问题;TD提供低方差的优势估计基础,作为GAE的核心组件;GAE(VAPO变种)负责策略更新的优势估计,平衡偏差与方差,适配异构序列;

  4. Lean编译器提供二元奖励信号,串联起VAPO的训练流程,解决稀疏奖励问题;Seed-Geometry引擎补充几何推理能力,完善Seed Prover的落地能力。

核心逻辑链:Seed Prover(长链稀疏需求)→ VAPO(定制化RL框架)→ 蒙特卡洛(无偏价值预训练)+ TD(低方差基础)+ GAE(VAPO变种,策略优势估计)→ 实现IMO级别定理证明突破。

6. 局限性与未来方向

6.1 核心局限性

  1. 计算资源需求高:VAPO的组采样、多轮训练,以及Seed Prover的重量级推理,均需要大量算力支撑;

  2. 奖励信号依赖强:VAPO及价值估计方法高度依赖Lean编译器提供的准确奖励信号,泛化到无明确验证器的场景难度较大;

  3. 场景泛化不足:目前核心适配数学定理证明场景,泛化到物理、计算机科学等其他长链推理场景的验证仍需扩展;

  4. 方法仍有优化空间:长度自适应GAE对极短序列的优化可能过度,蒙特卡洛的样本效率仍需提升。

6.2 未来方向

  1. 效率优化:研究更高效的抽样算法和模型架构,降低计算开销,适配中等规模模型训练;

  2. 奖励机制升级:结合符号验证与LLM评估,提供更丰富的奖励信号,减少对单一验证器的依赖;

  3. 跨领域扩展:将Seed Prover、VAPO及价值估计方法扩展到物理、计算机科学等领域,实现多场景长链推理;

  4. 方法迭代:优化长度自适应GAE的参数调节机制,提升蒙特卡洛的样本效率,探索MC、TD、GAE的更优协同模式;

  5. 人机协作:开发交互式证明系统,结合人类专家指导与AI推理能力,提升超难定理的证明效率。

7. 总结

本报告系统梳理了Seed Prover自动化定理证明系统、VAPO强化学习框架,以及蒙特卡洛、TD、GAE三大核心价值估计方法,重点突出了各技术的核心创新与协同机制。Seed Prover作为落地载体,实现了IMO级别定理证明的重大突破;VAPO作为核心训练框架,通过解耦GAE、长度自适应GAE等创新,解决了长链推理的核心难题;蒙特卡洛、TD、GAE三大方法协同作用,构成VAPO价值估计的核心体系,其中蒙特卡洛(λ=1.0)保证价值无偏,TD提供低方差基础,GAE(VAPO变种)平衡偏差与方差,适配异构序列。

上述技术的协同,形成了"需求-框架-方法-落地"的完整体系,解决了长链推理、稀疏奖励、异构序列三大核心挑战,为自动化数学推理及其他长链推理场景提供了可靠的技术范式。未来通过效率优化、跨领域扩展、方法迭代,有望进一步提升技术的泛化能力和实用价值。

附录:关键参数汇总

技术/方法 关键参数 取值 作用
VAPO α(长度自适应GAE) 0.05 控制λ与序列长度的关系
VAPO ε_low/ε_high(Clip-Higher) 0.2/0.28 非对称裁剪,鼓励探索
VAPO μ(正例LM损失权重) 0.1 平衡策略与模仿学习
蒙特卡洛 λ(价值预训练) 1.0 保证价值估计无偏
GAE(VAPO策略更新) λ_policy(默认) 0.95 平衡偏差与方差
所有方法(定理证明) γ(折扣因子) 1.0 推理链无时间衰减
相关推荐
九.九6 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见6 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
恋猫de小郭6 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
deephub7 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
偷吃的耗子7 小时前
【CNN算法理解】:三、AlexNet 训练模块(附代码)
深度学习·算法·cnn
大模型RAG和Agent技术实践7 小时前
从零构建本地AI合同审查系统:架构设计与流式交互实战(完整源代码)
人工智能·交互·智能合同审核
老邋遢7 小时前
第三章-AI知识扫盲看这一篇就够了
人工智能
互联网江湖7 小时前
Seedance2.0炸场:长短视频们“修坝”十年,不如AI放水一天?
人工智能
PythonPioneer7 小时前
在AI技术迅猛发展的今天,传统职业该如何“踏浪前行”?
人工智能
冬奇Lab8 小时前
一天一个开源项目(第20篇):NanoBot - 轻量级AI Agent框架,极简高效的智能体构建工具
人工智能·开源·agent