OpenDeepThink：让大模型不再只沿着一条思路硬想

论文：OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

arXiv:2605.15177v1，提交时间：2026-05-14 17:57:40 UTC

作者：Shang Zhou、Wenhao Chai、Kaiyuan Liu、Huanzhi Mao、Qiuyang Mang、Jingbo Shang

来源：https://arxiv.org/abs/2605.15177

关键数据：Gemini 3.1 Pro 在 8 轮顺序 LLM 调用、约 27 分钟 wall-clock 下，Codeforces 有效 Elo 提升 405 点；论文发布 CF-73，包含 73 道专家标注 Codeforces 题，本地评测与官方 verdict 一致率 99%。

大模型的"深度思考"，可能太像一个人自言自语

过去一年，test-time compute 成了大模型推理能力提升的主线之一。

它的基本想法很简单：模型参数不变，但推理时多花一点算力。让模型想更久、写更长的 chain-of-thought、反复检查答案、调用 verifier、或者采样多个候选答案再选择。

这条路线之所以重要，是因为它绕开了一个现实约束：不是每个团队都能重新训练一个更大的模型，但很多应用可以接受推理时多花几秒、几十秒，甚至几分钟，只要答案质量明显变好。

问题在于，很多"深度思考"方法，本质上仍然是让模型沿着一条轨迹往下走。

这就像让一个人在白板前连续推导。推导得越久，确实可能更接近答案；但如果一开始方向错了，后面越努力，越可能把错误包装得更严密。模型的自我检查也有类似问题：它既是出题人、答题人，又是阅卷人，很容易把自己的偏见带进判断。

OpenDeepThink 的切入点不一样。它不把算力都押在一条更长的推理链上，而是把推理变成一个小型"候选群体"的演化过程：并行产生多个候选，让它们两两比较，用 Bradley-Terry 模型聚合比较结果，再保留、变异、淘汰。

这篇论文真正有意思的地方，不是又提出了一个让模型多想几轮的技巧，而是把"模型推理"从单人长跑，改造成了群体竞赛。

为什么多采样还不够

最直接的 breadth scaling 是多采样。

同一道题，让模型生成十个、二十个甚至更多答案。只要其中有一个是对的，理论上就有机会超过单次生成。

但这马上带来一个选择问题：你怎么知道哪个候选最好？

如果是数学题、代码题，最好有一个可靠 verifier。代码可以跑测试，数学可以检查最终数值或形式证明。但大量现实任务并没有一个廉价、确定、无偏的裁判。让另一个 LLM 给候选打分也不稳，因为 pointwise judging 容易受表达风格、答案长度、先验偏见影响。

OpenDeepThink 选择了更接近人类评审的方式：不让模型直接给每个候选打绝对分，而是随机抽两份候选做 pairwise comparison。比较时，模型不仅判断谁更好，还生成自然语言 critique。然后系统把一批 pairwise votes 用 Bradley-Terry 聚合成全局排名。

Bradley-Terry 模型常用于从两两胜负关系中估计选手强弱。放到这里，每个候选推理轨迹就是一个"选手"。它不要求裁判一次性给出绝对分，只需要回答 A 是否比 B 好。多个 noisy pairwise judgments 聚合后，比单次打分更稳。

这解决了多采样路线最关键的瓶颈：候选很多时，选择本身也要变成一个可扩展的推理过程。

OpenDeepThink 的循环

论文里的流程可以拆成四步。

第一步，生成一组候选推理。它们可以来自同一个模型的多次采样，也可以在后续轮次中由已有候选变异而来。

第二步，随机两两比较。LLM 作为 judge，阅读两个候选，判断哪一个更优，并写出 critique。这里的 critique 很关键，因为它不是只产生一个胜负标签，还给后续改写提供方向。

第三步，用 Bradley-Terry 聚合投票。系统不相信单次裁判结果，而是把多个 pairwise votes 放到一个统一排名里，估计每个候选的相对强度。

第四步，保留和变异。排名靠前的候选被保留；排名前四分之三的候选会基于 critique 做自然语言 mutation；底部四分之一直接淘汰。

这很像一个轻量级进化算法。不同的是，候选不是基因串，而是自然语言推理轨迹；适应度不是外部 reward，而是由 LLM pairwise judge 加 Bradley-Terry 聚合出来的相对质量。

它的工程吸引力也在这里：不需要训练新模型，不需要专门调参，不要求题目一定有 verifier。只要模型能生成、比较和按 critique 改写，就能跑这个框架。

405 Elo 这个数字说明了什么

论文最醒目的实验结果，是 Gemini 3.1 Pro 在 Codeforces 上有效 Elo 提升 405 点。

这个数字要谨慎理解。它不是说模型参数本身变强了 405 Elo，也不是说每个任务都能白拿同样提升。论文明确指出，收益集中在 objectively verifiable domains，在 subjective domains 甚至可能反转。

这点反而让结果更可信。

Codeforces 题有清晰对错，推理路径可以被最终答案或本地评测检验。并行候选、比较、变异在这种环境里容易积累优势。模型不是凭感觉写一篇更顺眼的文章，而是在一组可检验问题上逐步筛出更可能正确的解法。

但如果任务是审美判断、开放式写作、价值判断、策略建议，pairwise judge 的偏见可能被放大。多个候选之间的"胜负"不再有清晰外部标准，系统可能把某种表达风格误认为更好。

所以 OpenDeepThink 更适合被看作一种"可验证推理任务的 test-time optimizer"，而不是通用智能增强器。

它最自然的落地场景包括：算法题、代码修复、数学推导、结构化规划、配置诊断、数据分析、约束求解，以及那些最终可以跑测试或检查约束的任务。

为什么它比"让模型反思一下"更工程化

很多 agent 或 reasoning pipeline 里都有 self-reflection：先生成答案，再让模型评价，最后改写。

这类方法的问题是太线性。一个候选错了，反思也可能围着这个错误打转。模型经常会给出听起来合理的批评，但改完之后并没有真正跳出原来的路径。

OpenDeepThink 的差异在于群体多样性。

它同时保留多个候选轨迹。每一轮不是单个答案自我修补，而是多个答案竞争、继承和变异。错误路径会被淘汰，较强路径会被保留，critique 变成下一轮 mutation 的燃料。

这更像软件工程里的测试矩阵，而不是单次代码 review。你不会只跑一个 case，然后让程序解释为什么自己对；你会让多个实现、多个输入、多个断言一起暴露问题。

对 AI agent 来说，这种思想很重要。未来的复杂任务不一定靠一个模型一次性给出完美计划，而可能靠一组候选计划并行探索，再通过比较、约束检查和外部验证逐步收敛。

成本问题：27 分钟意味着什么

论文提到，8 轮顺序 LLM 调用约 27 分钟 wall-clock。

这说明 OpenDeepThink 不是面向普通聊天的。你不会希望用户问一个日常问题，系统先跑半小时候选演化。

但在高价值任务里，这个成本可以接受。比如修一个复杂生产 bug、生成一段关键算法、设计一个多步骤实验、优化一个金融模型、完成一次法律或医学前的辅助分析，几十分钟的推理时间并不荒谬。

更重要的是，这类流程天然适合并行化。候选生成、pairwise comparison、mutation 很多部分都可以横向展开。今天论文里的 wall-clock 是一个实验条件，不代表工程上没有优化空间。

未来真正的问题不是"要不要多花推理算力"，而是"哪些任务值得多花推理算力"。这会变成产品层面的路由问题：普通请求走低成本路径，高风险高价值请求走 OpenDeepThink 这类重推理路径。

对内容生产和代码 Agent 的启发

OpenDeepThink 对内容生产也有启发，但不能照搬。

如果要写一篇观点文章，多候选 + pairwise ranking 可能会强化流畅、保守、主流的答案，而不是产生更有洞察的文本。因为"哪个观点更好"没有确定裁判，LLM judge 容易奖励熟悉的表达。

但如果把它用于文章事实核查、结构设计、标题候选、论据排序，价值就更明确。比如生成多个大纲，让模型比较逻辑完整性；生成多个标题，让模型比较信息密度和误导风险；生成多个事实摘要，再用来源一致性做约束。

代码 Agent 的场景更直接。一个 agent 可以生成多个 patch，跑测试、静态检查、lint，再让 LLM pairwise 比较可维护性和风险。最后用测试结果和 Bradley-Terry ranking 一起决定保留哪个 patch。

这可能是未来 coding agent 的重要方向：不是一次生成一个 patch，而是生成一个 patch population。

我对这篇论文的判断

OpenDeepThink 值得关注，因为它把 test-time scaling 做得更像一个系统，而不是一个 prompt 技巧。

它承认单次 LLM 判断有噪声，所以用 pairwise comparison 降低绝对评分压力；它承认多候选选择困难，所以用 Bradley-Terry 聚合；它承认一次生成不够，所以引入 critique-driven mutation；它也承认领域差异，所以指出收益在客观可验证任务中更明显。

这类方法不会让每个应用都变快，甚至会让很多任务变慢。但它提供了一个重要范式：当任务足够重要时，我们可以把推理组织成可演化、可比较、可筛选的群体过程。

大模型的下一阶段能力提升，可能不只来自更大的模型，也来自更会调度模型的推理系统。

OpenDeepThink 正是在这个方向上迈出的一步。