【AI论文】基于反射生成模型的测试时动态缩放方法

摘要 :我们推出首个反射生成模型 MetaStone-S1 ,其通过自监督过程奖励模型(SPRM)实现了与 OpenAI o3 相当的性能。通过共享主干网络,并分别采用任务特定头部实现下一标记预测过程评分 ,SPRM 成功将策略模型与过程奖励模型(PRM)集成于统一接口,且无需额外过程标注,使 PRM 参数减少超 99%,显著提升推理效率。得益于 SPRM 的设计,MetaStone-S1 天然适配测试时动态缩放(TTS) ,并基于可控思考长度提供三种推理强度模式(低、中、高)。此外,我们通过实证研究揭示了总思考计算量与 TTS 性能之间的缩放规律 。实验表明,参数规模仅 320 亿的 MetaStone-S1 即可达到与 OpenAI-o3-mini 系列相当的性能。为推动社区研究,我们已将 MetaStone-S1 开源至:https://github.com/MetaStone-AI/MetaStone-S1。Huggingface链接:Paper page,论文链接:2507.01951

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在自然语言理解和生成领域取得了显著进展,推动了诸如OpenAI的GPT-4、Google的Gemini、Meta的LLaMA系列、阿里巴巴的Qwen和DeepSeek的R1等先进模型的出现。这些模型通过创新的架构和训练技术,能够处理和生成多种格式的内容。特别是OpenAI的o3模型,通过测试时缩放(Test-Time Scaling, TTS)技术,如大规模采样、候选评分和多推理路径搜索,实现了在推理基准测试中的接近人类水平的性能。

然而,现有的TTS方法主要分为内部TTS和外部TTS两类。内部TTS(如DeepSeek R1)通过长链式思考(Long-CoT)生成答案,但可能受到"过度思考"的影响,导致性能下降。外部TTS(如Best-of-N采样、波束搜索和多样验证树搜索)则通过辅助奖励模型(如过程奖励模型,PRM)选择高质量的推理轨迹,但依赖于大规模的过程级标注数据,且训练成本高昂。

研究目的

本研究旨在解决现有TTS方法中的两个主要问题:

  1. 外部计算开销大:PRM包含与策略模型(LLM)独立的参数,增加了额外的计算负担。
  2. 标注数据昂贵:PRM的训练需要大规模的过程级标注数据,难以获取。

为此,研究提出了一种新的反射生成形式(Reflective Generative Form),通过共享策略模型和PRM的主干网络,并使用自监督过程奖励模型(SPRM),实现了高效的推理轨迹选择。基于这一形式,研究进一步提出了MetaStone-S1模型,该模型在仅320亿参数规模下,实现了与OpenAI o3-mini系列相当的性能。

二、研究方法

1. 反射生成形式(Reflective Generative Form)

反射生成形式通过共享策略模型和PRM的主干网络,并使用任务特定头部进行推理轨迹预测和评分,实现了参数的高效利用。具体来说:

  • 统一接口:策略模型和SPRM共享同一主干网络,SPRM通过轻量级头部对推理轨迹进行评分。
  • 自监督训练:SPRM仅使用最终答案标签进行优化,避免了过程级标注的需求。

2. 自监督过程奖励模型(SPRM)

SPRM通过自监督学习,仅使用最终答案的正确性来优化推理轨迹的选择。具体方法包括:

  • 步骤分割:使用模型自带的标记器将推理轨迹分割成离散的步骤。
  • 轨迹评分预测:基于步骤标记的隐藏表示,使用SPRM头部预测每个步骤的过程分数,并通过几何平均计算整个推理轨迹的最终分数。

3. 优化方法

  • 策略模型优化:采用组相对策略优化(GRPO)方法。
  • SPRM优化:提出自监督过程奖励损失(SPR Loss),仅基于最终答案的正确性来优化SPRM。

4. 推理方法

在推理阶段,MetaStone-S1通过以下步骤选择高质量的推理轨迹:

  1. 采样:策略模型生成多个推理轨迹作为候选。
  2. 评分:SPRM对每个推理轨迹的步骤进行评分,并计算最终分数。
  3. 选择:选择最终分数最高的推理轨迹,指导策略模型生成答案。

三、研究结果

1. 性能比较

  • 数学推理任务:在AIME2024和AIME2025基准测试中,MetaStone-S1-32B模型分别达到了85.2%和73.6%的准确率,优于大多数开源模型,并与OpenAI o3-mini系列相当。
  • 编程任务:在LiveCodeBench基准测试中,MetaStone-S1-32B模型达到了64.2%的准确率,优于其他320亿参数规模的模型。
  • 中文推理任务:在C-Eval基准测试中,MetaStone-S1-32B模型达到了89.7%的准确率,优于大多数开源模型,并与OpenAI o3-mini系列相当。

2. 缩放规律

研究发现,MetaStone-S1的性能与计算预算(参数规模与推理标记数的乘积)呈对数正相关。当推理长度扩展到基线的32倍以上时,性能提升逐渐减缓。

3. "顿悟时刻"(Aha Moment)

研究观察到,在训练过程中存在一个"顿悟时刻",此时模型开始能够基于推理内容判断正确性,正确与错误推理轨迹的评分差距逐渐扩大。

4. 消融研究

  • SPRM的有效性:仅使用少量额外参数(如500万至5300万)的SPRM,性能优于使用720亿参数的独立PRM。
  • 自监督优化的有效性:与使用最终答案正确性作为过程级监督的BCELoss相比,SPRLoss在区分正确与错误推理轨迹方面表现出更强的判别能力。

四、研究局限

1. 额外超参数引入

研究提出的反射生成形式引入了额外的超参数r_min,其最优选择可能因概念而异。虽然设置r_min为全排名的50%在大多数情况下表现良好,但不同概念的最优选择可能有所不同。

2. 训练时间增加

使用SVD初始化权重虽然提高了模型的稳定性和性能,但也增加了时间和计算开销。与标准LoRA初始化相比,SVD初始化需要更多的计算资源。

3. 模型规模限制

虽然MetaStone-S1在320亿参数规模下实现了与OpenAI o3-mini相当的性能,但在更大规模模型上的表现尚未充分验证。

4. 评估基准有限

目前的研究主要在数学推理、编程和中文推理任务上进行了评估,对于其他类型的复杂推理任务(如科学推理、常识推理等)的评估尚不充分。

五、未来研究方向

1. 探索更高效的推理轨迹选择方法

进一步研究如何在不显著增加计算成本的情况下,提高推理轨迹选择的准确性和效率。例如,可以探索基于强化学习的更高效搜索策略,或结合其他类型的奖励模型来优化推理过程。

2. 扩展评估基准

在更多类型的复杂推理任务上评估MetaStone-S1的性能,以验证其泛化能力。这包括科学推理、常识推理、多模态推理等领域。

3. 优化模型架构和训练方法

研究如何进一步优化模型架构和训练方法,以减少训练时间和计算开销。例如,可以探索更高效的权重初始化方法,或结合知识蒸馏等技术来压缩模型规模。

4. 结合其他先进技术

探索将MetaStone-S1与其他先进技术(如注意力机制、图神经网络等)相结合,以提高模型的推理能力和解释性。例如,可以引入图神经网络来更好地处理结构化数据,或结合注意力机制来提高模型对关键信息的关注能力。

5. 实际应用探索

将MetaStone-S1应用于实际场景中,如智能客服、自动驾驶、医疗诊断等领域,以验证其在实际应用中的有效性和可靠性。通过实际应用反馈,进一步优化模型性能和用户体验。

相关推荐
嘀咕博客26 分钟前
Glato - AI 驱动的广告视频创作平台
人工智能·ai工具
limengshi13839242 分钟前
人工智能学习:Linux相关面试题
linux·人工智能·深度学习·学习
区块链小八歌1 小时前
从支付工具到收益资产:稳定币在 Berachain 上的二次进化
人工智能·区块链
介一安全1 小时前
AI 暗战: 回声室攻击 —— 解锁大模型安全防御的隐秘战场
人工智能·安全·ai·安全性测试
黎燃1 小时前
基于计算机视觉的无人便利店技术:从算法到部署的系统化实战指南
人工智能
乔公子搬砖1 小时前
构建企业级RAG系统:基于Milvus的模块化实现与全流程解析
大数据·人工智能·python·ai·milvus·rag·向量库
普蓝机器人2 小时前
果蔬采摘机器人:自动驾驶融合视觉识别,精准定位,高效作业
人工智能·机器人·自动驾驶
普蓝机器人2 小时前
普蓝自研AutoTrack-4X导航套件平台适配高校机器人实操应用
人工智能·科技·机器人·三维仿真导航·移动机器人底盘
makerjack0014 小时前
Java中使用Spring Boot+Ollama实现本地AI的MCP接入
java·人工智能·spring boot
陈敬雷-充电了么-CEO兼CTO4 小时前
深度拆解判别式推荐大模型RankGPT!生成式精排落地提速94.8%,冷启动效果飙升,还解决了传统推荐3大痛点
大数据·人工智能·机器学习·chatgpt·大模型·推荐算法·agi