Seed Prover及相关强化学习核心方法技术报告本报告系统梳理字节跳动Seed团队研发的Seed Prover自动化定理证明系统、其核心训练框架VAPO算法,以及支撑VAPO价值估计的三大核心方法——蒙特卡洛(Monte Carlo, MC)、时序差分学习(Temporal Difference, TD)、广义优势估计(Generalized Advantage Estimation, GAE)。报告重点突出各技术的核心原理、创新点及协同关系,聚焦长链推理(定理证明)场景的技术适配的优化,详略得当,兼顾严谨性与逻辑性,清晰呈现“落地系统(Seed Pr