一、推理模型 ⾯ 临的新挑战
随着 OpenAI o1 、 DeepSeek-R1 等大型推理模型(LRMs)的问世, AI 推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维(Long Chain-of-Thought, CoT)在数学推理、代码生成、智能体任务等领域展现出强大能力。

然而,现有评测体系存在一个关键盲区:主流基准测试(如 MATH500 、AIME)主要关注独立的单一问题,每个问题相互隔离,模型只需「---问---答」即可。
但现实应用场景往往大相径庭:
- 软件开发中需要连续处理多个关联代码模块
- 数学证明需要基于前序推导逐步构建后续结论
- 智能助手往往需要在多轮交互逐步完成复杂任务
这些真实场景要求模型具备跨任务的长链推理能力------不仅要解决单个子问题,更要在多个关联任务间保持推理---致性、合理分配计算资源、实现跨步骤的反思与纠错。
核心问题:当前大型推理模型的长链推理能力边界到底在哪里?
由于现有评测无法回答这---问题,传统训练数据也难以培养这种能力(如图所示,模型在长程推理场景下表现明显退化)。

复旦大学与美团 LongCat 联合推出 R-HORIZON------首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

- 论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
- 论文地址 : arxiv.org/abs/2510.08...
- 项目主页 : reasoning-horizon.github.io
- 代码地址 :github.com/meituan-lon...
- 数据集 :huggingface.co/collections...
二、方法论: Query Composition 范式
核心创新
R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
以数学任务为例,该方法包含三个步骤:
- 信息提取 :从独立问题中提取核心数值、变量等关键信息 2. 依赖构建 :将前序问题的答案嵌入到后续问题的条件中 3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案
方法优势
- 灵活扩展:可自由控制推理链长度(n = 2, 4, 8...)
- 精确可控:可灵活设定问题间的依赖强度
- 高效低成本:基于现有数据集构建,无需额外人工标注
基于此方法,我们构建了 R-HORIZON Benchmark 用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。

三、评测基准: R-HORIZON Benchmark
数据集构成
基于 Query Composition 方法,我们构建了涵盖 6 个代表性数据集的 R-HORIZON Benchmark:

评测发现:性能断崖现象
我们评测了 20+ 个主流 LRMs(包括 o4-mini 、Claude-Sonnet-4 、 DeepSeek-R1 等顶级商业模型及开源模型),揭示了---个重要现象。
顶级推理模型在长链推理场景下均出现显著性能下降!
主要发现:
- 普遍性能退化:所有模型随问题数量增加均出现明显性能下降。DeepSeek-R1 在 AIME25 单问题场景准确率达 87.3%,但在 5 个组合问题场景下骤降至 24.6%。
- 规模效应:更大规模的模型对多步推理挑战表现出更强的鲁棒性。
- 任务差异:代码生成任务相比数学任务表现出更陡峭的性能衰退;多数推理模型在网页搜索场景中丧失工具调用能力。

四、机制分析:推理模型的三大瓶颈
为深入理解性能断崖的成因,我们进行了系统的机制分析,识别出当前 LRMs 的三个关键瓶颈:
瓶颈 1:有效推理长度受限
随着相互依赖问题数量增加,LRMs 难以维持原有性能水平。实际准确率与理论准确率之间的差距显著扩大。
深入分析显示:
- 模型错误集中在特定上下文范围内
- 7B 模型的主要错误范围在 (4-6K tokens)
- 32B 模型将范围扩展到 (8-10K tokens)
- 更大模型具有更长的有效推理边界

瓶颈 2: 反思机制高度局部化
对模型「反思」行为的分析发现发现:
- 模型反思频率随问题数量增加而上升并趋于收敛。
- 超过半数复杂任务 完全缺乏 长程反思 (跨越当前问题的反思)。
- 当前 LRMs 的反思机制 高度局部化,无法支撑长链场景需求。

瓶颈 3:思考预算分配失衡
最令人意外的发现:包括 DeepSeek-R1 在内的主流 LRMs 无法有效分配思考预算!
- 模型倾向于过度分配 tokens 给早期推理阶段
- 未能合理分配资源给后续关键问题
- 这种失衡严重影响整体推理链的完成质量

五、 训练方案:突破能力边界
发现瓶颈后,我们进---步探索:能否通过长链数据的强化学习训练突破这些限制?
训练策略
我们基于 R-HORIZON 构建的长链推理数据,采用 GRPO 算法进行训练:
- 算法:主流 RLVR 算法 GRPO
- 数据: R-HORIZON 组合数据(n = 2, n = 4)
- 实验:不同奖励函数的对比实验
训练效果:双重性能提升
实验结果显示:R-HORIZON 训练不仅显著提升长链任务表现,单问题性能也大幅增强!
核心数据

注:加粗数字表示该列最佳成绩

关键发现
- 双重提升:使用 n = 2 组合问题训练,多步推理性能大幅提升(AIME24 n = 2 +17.4 分),单问题性能也显著增强(AIME24 单题 +7.5 分)。
- 可扩展性:增加组合复杂度(n = 4)增强了模型处理更多推理步骤问题的能力,在 MATH500 (n = 8) 上达到 50.6%。
训练带来的质变
R-HORIZON 训练带来了推理机制的深层改变:
- 更高效的推理长度:显著改善组合任务性能,更好地泛化到更长推理链,同时缓解「overthinking」现象
- 更合理的预算分配:学会在多步问题中进行更合理的 token 预算分配
- 更长程的反思能力:促进了长程反思频率增加,直接改善长链推理性能

六、结论与展望
R-HORIZON 标志着大型推理模型研究的范式转变------从「能解决什么问题」到「能走多远」。
技术贡献
- 首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈。
- 可扩展训练范式:提供低成本、高效率的能力提升路径。
- 深度机制分析:为未来推理模型改进指明方向。
阅读更多
| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。