Seed Prover及相关强化学习核心方法技术报告

摘要

本报告系统梳理字节跳动Seed团队研发的Seed Prover自动化定理证明系统、其核心训练框架VAPO算法，以及支撑VAPO价值估计的三大核心方法------蒙特卡洛（Monte Carlo, MC）、时序差分学习（Temporal Difference, TD）、广义优势估计（Generalized Advantage Estimation, GAE）。报告重点突出各技术的核心原理、创新点及协同关系，聚焦长链推理（定理证明）场景的技术适配的优化，详略得当，兼顾严谨性与逻辑性，清晰呈现"落地系统（Seed Prover）-核心框架（VAPO）-基础方法（MC/TD/GAE）"的完整技术链条。

1. 引言

自动化数学定理证明是长链推理（Long-CoT）任务的典型代表，面临价值模型偏差、异构序列长度、奖励信号稀疏三大核心挑战。字节跳动Seed团队针对性研发了Seed Prover自动化定理证明系统，其核心训练依赖VAPO（Value-based Augmented Proximal Policy Optimization）强化学习框架；而VAPO的核心突破的在于长链推理的价值估计优化，整合了蒙特卡洛、TD、GAE三种方法的优势，通过定制化改造（如λ=1.0蒙特卡洛价值预训练、解耦GAE等），解决了传统强化学习在定理证明场景的适配难题，实现了IMO级别竞赛的银牌突破。本报告围绕上述核心技术，按"系统-框架-方法-关联"的逻辑展开，重点突出技术创新与实际应用。

2. 核心落地系统：Seed Prover

2.1 核心定位与基础概述

Seed Prover是字节跳动Seed AI4Math团队于2025年7月推出的基于引理风格的全证明推理模型，专注于使用Lean 4进行形式化数学定理证明，核心定位是解决IMO级别数学竞赛问题的自动化定理证明系统，核心组件包括Seed-Prover主模型与Seed-Geometry几何推理引擎。其核心创新在于将引理置于推理过程的中心，采用全证明生成与迭代优化相结合的方法，区别于传统分步证明器和单次全证明生成模型。

2.2 核心架构与工作流程

Seed Prover的整体架构以"猜想-引理-证明"为核心链路，流程如下：

输入问题 → 猜想生成器 → 猜想池 → 轻量级证明验证 → 引理池 → 中量级优化（难引理专项攻克） → 重量级综合推理 → 完整证明输出

核心模块包括猜想生成器（广度探索候选性质）、证明生成器（基于引理池生成全证明代码）、反馈处理模块（解析Lean编译器信号）、引理管理系统（维护引理池）、推理调度器（根据难度选择推理模式），以及专用的Seed-Geometry几何推理引擎（解决Lean几何支持不足问题，结合神经符号推理，实现100倍速度提升）。

2.3 关键性能与版本升级

Seed Prover在竞赛级场景中表现突出：IMO 2025完整证明5/6题获银牌（30分），往届IMO成功率达78.1%，MiniF2F准确率达99.6%，PutnamBench准确率超50%；2025年12月发布的1.5版本升级为Agentic智能体架构，强化工具使用能力，IMO 2025表现提升至金牌（35/42分），PutnamBench准确率达88%，推理效率大幅提升。

2.4 核心依赖

Seed Prover的高效训练与推理，核心依赖VAPO强化学习框架，其价值估计、策略更新均基于蒙特卡洛、TD、GAE三种方法的协同与定制化改造，解决了长链推理、稀疏奖励场景下的训练稳定性与样本效率问题。

3. 核心训练框架：VAPO算法

3.1 核心定位与基础概述

VAPO（Value-based Augmented Proximal Policy Optimization）是字节跳动Seed团队于2025年4月提出的基于价值的增强近端策略优化框架，专为长链推理任务设计，核心目标是解决传统PPO在长序列推理中面临的价值模型偏差、异构序列长度、奖励信号稀疏三大核心挑战，首次实现基于价值的RL方法在长CoT任务上显著超越无价值方法。

VAPO基于PPO算法，整合VC-PPO、DAPO、GRPO等方法的技术优势，基准表现突出：AIME 2024数据集60.4分（SOTA），超越DAPO和DeepSeek-R1-Zero 10+分，5000步内可达SOTA性能，稳定性高，核心应用场景为数学定理证明（Seed Prover）、复杂推理、代码生成等长CoT任务。

3.2 核心创新技术（重点突出价值估计相关）

VAPO的七大核心创新技术中，与价值估计（蒙特卡洛、TD、GAE相关）的技术是重点，也是其适配长链推理的关键，具体如下：

3.2.1 价值预训练（Value Pretraining）

核心解决价值模型初始化偏差导致的训练不稳定问题，采用λ=1.0的蒙特卡洛回报训练价值模型，用固定SFT策略生成响应，以蒙特卡洛回报（λ=1.0）训练价值模型至价值损失和解释方差达到低阈值，保存检查点用于后续RL训练，消除奖励模型带来的偏差，为RL训练提供可靠起点。

3.2.2 解耦GAE（Decoupled-GAE）

针对长序列中奖励衰减、价值与策略更新对λ参数需求不同的问题，实现价值更新与策略更新的λ参数解耦：价值更新采用λ_critic=1.0（纯蒙特卡洛），确保奖励完整传播、价值估计无偏；策略更新采用较小λ（默认0.95），加速收敛、降低方差，兼顾准确性和效率。

3.2.3 长度自适应GAE（Length-Adaptive GAE）

VAPO最核心的创新，针对异构序列长度问题，动态调整策略更新的λ参数，公式为：λ_policy = 1 - 1/(α·l)（α=0.05为超参数，l为序列长度）。长序列（l>100）λ接近1.0，低偏差、可接受高方差，确保奖励信号完整传回早期标记；短序列λ较小（如0.9），低方差、可接受小偏差，提供稳定学习信号，统一长短序列的优势估计质量。

3.2.4 其他辅助创新技术

包括Clip-Higher（非对称裁剪范围，鼓励探索，避免熵崩溃）、标记级策略梯度损失（增加长序列优化权重）、正例语言模型损失（最大化正确样本效用，减少试错成本）、组采样（提供丰富对比信号，提升正确答案采样概率），均为辅助价值估计与策略更新，适配稀疏奖励场景。

3.3 训练流程与核心适配

VAPO的训练流程分为价值预训练和RL训练主循环，核心适配Seed Prover的定理证明场景：

价值预训练阶段：固定SFT策略生成数据 → 蒙特卡洛回报（λ=1.0）训练价值模型 → 保存检查点；
RL训练主循环：组采样生成轨迹（512提示×16次）→ Lean编译器提供二元奖励（+1成功/-1失败）→ 长度自适应GAE计算优势 → 标记级PPO损失+正例LM损失更新策略 → 解耦GAE（λ=1.0）更新价值模型 → 重复直至收敛。

在Seed Prover中的适配重点的：采用二元奖励机制解决奖励稀疏问题，奖励函数中加入格式惩罚鼓励引理生成，为超难问题生成简化变体辅助训练，与Seed-Geometry引擎结合处理几何符号推理。

4. 核心价值估计方法（重点突出VAPO/Seed Prover适配）

长链推理的核心难点之一是价值估计，蒙特卡洛（MC）、时序差分学习（TD）、广义优势估计（GAE）是三大核心方法，VAPO对其进行了定制化改造，使其适配Seed Prover的定理证明场景（长链、稀疏奖励），三者协同构成VAPO价值估计的核心体系。

4.1 蒙特卡洛方法（Monte Carlo, MC）

4.1.1 核心本质与基础原理

蒙特卡洛方法的核心是通过随机抽样+统计平均逼近真实值，理论基础是大数定律，无需依赖环境模型，仅通过完整轨迹的真实奖励进行价值估计。在强化学习中，蒙特卡洛回报（MC Return）是t时刻到轨迹结束的所有奖励的折扣和，公式为：

G_t = \\sum_{k=t}\^T \\gamma\^{k-t} r_k

其中γ∈[0,1]为折扣因子，定理证明场景中γ=1（无时间衰减）。

4.1.2 重点应用：λ=1.0训练价值模型（VAPO价值预训练）

λ=1.0的蒙特卡洛回报即纯蒙特卡洛回报，核心特点是无偏、方差大，无需自举（仅依赖完整轨迹的真实奖励），是VAPO价值预训练的核心方法，适配定理证明的稀疏奖励场景：

定理证明场景适配：奖励极端稀疏，r₁=r₂=...=r_{T-1}=0，r_T=R∈{+1,-1}，此时λ=1.0的MC回报简化为$$V_t^{\text{target}} = R, \forall t=1,2,...,T$$，即整条推理链每一步状态的价值均等于最终真实奖励；
价值模型训练目标：价值模型$$V_\theta(s)$$拟合MC回报，采用均方误差（MSE）损失，公式为$$\mathcal{L}{\text{value}}(\theta) = \mathbb{E}{\tau \sim \pi_{\text{fixed}}}\left[ \frac{1}{T}\sum_{t=1}^T \big(V_\theta(s_t) - V_t^{\text{target}}\big)^2 \right]$$，其中$$\pi_{\text{fixed}}$$为固定SFT策略（不更新，仅生成轨迹）；
训练流程：冻结SFT策略→批量生成完整轨迹→为每一步分配MC回报标签（均为R）→MSE训练价值模型→保存检查点。

4.1.3 优缺点与VAPO弥补措施

优点：无偏性，适配超长序列和极端稀疏奖励，不依赖环境模型，是长链推理价值估计的可靠基础；缺点：方差大，必须依赖完整轨迹，样本效率低。VAPO的弥补措施：多抽样进行价值预训练、组采样提升对比信号、正例LM损失提升样本效率。

4.2 时序差分学习（Temporal Difference, TD）

4.2.1 核心本质与基础原理

TD的核心是"蒙特卡洛采样思想+动态规划自举思想"，无需等轨迹结束，用"即时奖励+下一个状态的价值估计"更新当前价值，特点是有偏、方差小、在线学习、训练快。其核心概念包括：

自举（Bootstrapping）：用自身对未来的价值估计更新当前价值，区别于MC仅依赖真实奖励；
TD目标：单步TD(0)的目标为$$G_t^\text{TD} = r_t + \gamma \cdot V(s_{t+1})$$；
TD误差：$$\delta_t = G_t^\text{TD} - V(s_t) = r_t + \gamma V(s_{t+1}) - V(s_t)$$；
更新规则：$$V(s_t) \leftarrow V(s_t) + \alpha \cdot \delta_t$$（α为学习率）。

TD(λ)是TD的扩展，将所有n步TD回报加权平均，λ=0对应纯TD(0)，λ=1对应纯MC，构成TD与MC的连续统一。

4.2.2 在VAPO/Seed Prover中的角色

TD的致命缺点是长链场景下偏差爆炸（每一步偏差层层叠加），无法单独用于Seed Prover的价值模型训练；但其方差小、训练快的优点被GAE整合，作为VAPO策略更新中优势估计的基础（GAE本质是TD残差的加权求和），不单独使用，仅作为GAE的核心组件发挥作用。

4.3 广义优势估计（Generalized Advantage Estimation, GAE）

4.3.1 核心本质与基础原理

GAE的核心是用λ参数实现TD与MC的连续统一，通过调节λ参数精准平衡偏差-方差权衡，是现代RL算法（PPO/VAPO）的核心组件，目标是计算优势函数$$A_t = Q(s_t, a_t) - V(s_t)$$（衡量动作比平均水平好多少）。

GAE的核心公式为TD残差的加权求和：

A_t\^{\\text{GAE}(\\lambda)} = \\sum_{k=0}\^{T-t-1} (\\gamma \\lambda)\^k \\delta_{t+k}

其中$$\delta_t$$为TD残差，定理证明场景中γ=1，公式简化为$$A_t^{\text{GAE}(\lambda)} = \delta_t + \lambda \delta_{t+1} + \lambda^2 \delta_{t+2} + ... + \lambda^{T-t-1} \delta_{T-1}$$。

λ参数的核心作用：λ=0→纯TD（方差最小、偏差最大）；λ=1→纯MC（无偏、方差最大）；0<λ<1→混合模式，平衡两者优点。

4.3.2 VAPO对GAE的定制化创新（重点）

标准GAE的缺陷是价值更新与策略更新共用一个λ，无法适配长链推理的异构序列问题，VAPO提出两大创新变种，使其成为Seed Prover策略更新的核心：

解耦GAE（Decoupled-GAE）：价值模型更新用λ_critic=1.0（纯MC，保证无偏），策略模型更新用λ_policy=0.95（混合模式，降低方差），适配价值与策略的不同需求；
长度自适应GAE（Length-Adaptive GAE）：λ_policy随序列长度动态调整，公式为$$\lambda_{\text{policy}} = 1 - \frac{1}{\alpha \cdot l}$$（α=0.05），长序列λ接近1.0（减少偏差），短序列λ较小（降低方差），自动适配异构序列长度。

4.3.3 在Seed Prover中的应用

GAE计算的优势是Seed Prover策略梯度更新的核心输入，驱动模型学习最优证明步骤；结合Lean的二元奖励，将最终奖励传递到每一步，帮助模型识别证明过程中的关键步骤和错误；同时融入引理格式惩罚，引导模型优先生成引理，提升证明效率。

4.4 三大方法核心对比（重点突出适配性）

对比维度	蒙特卡洛（λ=1）	时序差分（λ=0）	GAE（0<λ<1，VAPO变种）
偏差	无偏	最大	可控（λ越大，偏差越小）
方差	最大	最小	可控（λ越大，方差越大）
更新时机	需完整轨迹	一步即可更新	需完整轨迹（反向累加计算）
长链适配性	好（无偏，无偏差爆炸）	差（偏差爆炸）	极好（VAPO自适应λ，兼顾无偏与稳定）
VAPO/Seed Prover应用	价值模型预训练/更新	不单独使用，作为GAE组件	策略模型更新（长度自适应λ）

5. 核心技术关联与协同机制（重点）

上述核心技术并非独立存在，而是形成"落地场景-训练框架-价值估计"的协同体系，所有技术的核心目标均为解决Seed Prover的长链、稀疏奖励、异构序列三大问题，协同机制如下：

Seed Prover作为落地载体，提出引理式证明、三层推理策略等需求，驱动VAPO框架及价值估计方法的定制化改造；
VAPO作为核心训练框架，整合蒙特卡洛、TD、GAE三大方法，通过解耦GAE、长度自适应GAE等创新，解决长链推理的价值估计难题，为Seed Prover提供稳定、高效的训练支撑；
蒙特卡洛（λ=1.0）负责价值模型的无偏预训练，解决价值初始化偏差问题；TD提供低方差的优势估计基础，作为GAE的核心组件；GAE（VAPO变种）负责策略更新的优势估计，平衡偏差与方差，适配异构序列；
Lean编译器提供二元奖励信号，串联起VAPO的训练流程，解决稀疏奖励问题；Seed-Geometry引擎补充几何推理能力，完善Seed Prover的落地能力。

核心逻辑链：Seed Prover（长链稀疏需求）→ VAPO（定制化RL框架）→ 蒙特卡洛（无偏价值预训练）+ TD（低方差基础）+ GAE（VAPO变种，策略优势估计）→ 实现IMO级别定理证明突破。

6. 局限性与未来方向

6.1 核心局限性

计算资源需求高：VAPO的组采样、多轮训练，以及Seed Prover的重量级推理，均需要大量算力支撑；
奖励信号依赖强：VAPO及价值估计方法高度依赖Lean编译器提供的准确奖励信号，泛化到无明确验证器的场景难度较大；
场景泛化不足：目前核心适配数学定理证明场景，泛化到物理、计算机科学等其他长链推理场景的验证仍需扩展；
方法仍有优化空间：长度自适应GAE对极短序列的优化可能过度，蒙特卡洛的样本效率仍需提升。

6.2 未来方向

效率优化：研究更高效的抽样算法和模型架构，降低计算开销，适配中等规模模型训练；
奖励机制升级：结合符号验证与LLM评估，提供更丰富的奖励信号，减少对单一验证器的依赖；
跨领域扩展：将Seed Prover、VAPO及价值估计方法扩展到物理、计算机科学等领域，实现多场景长链推理；
方法迭代：优化长度自适应GAE的参数调节机制，提升蒙特卡洛的样本效率，探索MC、TD、GAE的更优协同模式；
人机协作：开发交互式证明系统，结合人类专家指导与AI推理能力，提升超难定理的证明效率。

7. 总结

本报告系统梳理了Seed Prover自动化定理证明系统、VAPO强化学习框架，以及蒙特卡洛、TD、GAE三大核心价值估计方法，重点突出了各技术的核心创新与协同机制。Seed Prover作为落地载体，实现了IMO级别定理证明的重大突破；VAPO作为核心训练框架，通过解耦GAE、长度自适应GAE等创新，解决了长链推理的核心难题；蒙特卡洛、TD、GAE三大方法协同作用，构成VAPO价值估计的核心体系，其中蒙特卡洛（λ=1.0）保证价值无偏，TD提供低方差基础，GAE（VAPO变种）平衡偏差与方差，适配异构序列。

上述技术的协同，形成了"需求-框架-方法-落地"的完整体系，解决了长链推理、稀疏奖励、异构序列三大核心挑战，为自动化数学推理及其他长链推理场景提供了可靠的技术范式。未来通过效率优化、跨领域扩展、方法迭代，有望进一步提升技术的泛化能力和实用价值。

附录：关键参数汇总

技术/方法	关键参数	取值	作用
VAPO	α（长度自适应GAE）	0.05	控制λ与序列长度的关系
VAPO	ε_low/ε_high（Clip-Higher）	0.2/0.28	非对称裁剪，鼓励探索
VAPO	μ（正例LM损失权重）	0.1	平衡策略与模仿学习
蒙特卡洛	λ（价值预训练）	1.0	保证价值估计无偏
GAE（VAPO策略更新）	λ_policy（默认）	0.95	平衡偏差与方差
所有方法（定理证明）	γ（折扣因子）	1.0	推理链无时间衰减