OpenDeepThink:让大模型不再只沿着一条思路硬想

论文:OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

arXiv:2605.15177v1,提交时间:2026-05-14 17:57:40 UTC

作者:Shang Zhou、Wenhao Chai、Kaiyuan Liu、Huanzhi Mao、Qiuyang Mang、Jingbo Shang

来源:https://arxiv.org/abs/2605.15177

关键数据:Gemini 3.1 Pro 在 8 轮顺序 LLM 调用、约 27 分钟 wall-clock 下,Codeforces 有效 Elo 提升 405 点;论文发布 CF-73,包含 73 道专家标注 Codeforces 题,本地评测与官方 verdict 一致率 99%。

大模型的"深度思考",可能太像一个人自言自语

过去一年,test-time compute 成了大模型推理能力提升的主线之一。

它的基本想法很简单:模型参数不变,但推理时多花一点算力。让模型想更久、写更长的 chain-of-thought、反复检查答案、调用 verifier、或者采样多个候选答案再选择。

这条路线之所以重要,是因为它绕开了一个现实约束:不是每个团队都能重新训练一个更大的模型,但很多应用可以接受推理时多花几秒、几十秒,甚至几分钟,只要答案质量明显变好。

问题在于,很多"深度思考"方法,本质上仍然是让模型沿着一条轨迹往下走。

这就像让一个人在白板前连续推导。推导得越久,确实可能更接近答案;但如果一开始方向错了,后面越努力,越可能把错误包装得更严密。模型的自我检查也有类似问题:它既是出题人、答题人,又是阅卷人,很容易把自己的偏见带进判断。

OpenDeepThink 的切入点不一样。它不把算力都押在一条更长的推理链上,而是把推理变成一个小型"候选群体"的演化过程:并行产生多个候选,让它们两两比较,用 Bradley-Terry 模型聚合比较结果,再保留、变异、淘汰。

这篇论文真正有意思的地方,不是又提出了一个让模型多想几轮的技巧,而是把"模型推理"从单人长跑,改造成了群体竞赛。

为什么多采样还不够

最直接的 breadth scaling 是多采样。

同一道题,让模型生成十个、二十个甚至更多答案。只要其中有一个是对的,理论上就有机会超过单次生成。

但这马上带来一个选择问题:你怎么知道哪个候选最好?

如果是数学题、代码题,最好有一个可靠 verifier。代码可以跑测试,数学可以检查最终数值或形式证明。但大量现实任务并没有一个廉价、确定、无偏的裁判。让另一个 LLM 给候选打分也不稳,因为 pointwise judging 容易受表达风格、答案长度、先验偏见影响。

OpenDeepThink 选择了更接近人类评审的方式:不让模型直接给每个候选打绝对分,而是随机抽两份候选做 pairwise comparison。比较时,模型不仅判断谁更好,还生成自然语言 critique。然后系统把一批 pairwise votes 用 Bradley-Terry 聚合成全局排名。

Bradley-Terry 模型常用于从两两胜负关系中估计选手强弱。放到这里,每个候选推理轨迹就是一个"选手"。它不要求裁判一次性给出绝对分,只需要回答 A 是否比 B 好。多个 noisy pairwise judgments 聚合后,比单次打分更稳。

这解决了多采样路线最关键的瓶颈:候选很多时,选择本身也要变成一个可扩展的推理过程。

OpenDeepThink 的循环

论文里的流程可以拆成四步。

第一步,生成一组候选推理。它们可以来自同一个模型的多次采样,也可以在后续轮次中由已有候选变异而来。

第二步,随机两两比较。LLM 作为 judge,阅读两个候选,判断哪一个更优,并写出 critique。这里的 critique 很关键,因为它不是只产生一个胜负标签,还给后续改写提供方向。

第三步,用 Bradley-Terry 聚合投票。系统不相信单次裁判结果,而是把多个 pairwise votes 放到一个统一排名里,估计每个候选的相对强度。

第四步,保留和变异。排名靠前的候选被保留;排名前四分之三的候选会基于 critique 做自然语言 mutation;底部四分之一直接淘汰。

这很像一个轻量级进化算法。不同的是,候选不是基因串,而是自然语言推理轨迹;适应度不是外部 reward,而是由 LLM pairwise judge 加 Bradley-Terry 聚合出来的相对质量。

它的工程吸引力也在这里:不需要训练新模型,不需要专门调参,不要求题目一定有 verifier。只要模型能生成、比较和按 critique 改写,就能跑这个框架。

405 Elo 这个数字说明了什么

论文最醒目的实验结果,是 Gemini 3.1 Pro 在 Codeforces 上有效 Elo 提升 405 点。

这个数字要谨慎理解。它不是说模型参数本身变强了 405 Elo,也不是说每个任务都能白拿同样提升。论文明确指出,收益集中在 objectively verifiable domains,在 subjective domains 甚至可能反转。

这点反而让结果更可信。

Codeforces 题有清晰对错,推理路径可以被最终答案或本地评测检验。并行候选、比较、变异在这种环境里容易积累优势。模型不是凭感觉写一篇更顺眼的文章,而是在一组可检验问题上逐步筛出更可能正确的解法。

但如果任务是审美判断、开放式写作、价值判断、策略建议,pairwise judge 的偏见可能被放大。多个候选之间的"胜负"不再有清晰外部标准,系统可能把某种表达风格误认为更好。

所以 OpenDeepThink 更适合被看作一种"可验证推理任务的 test-time optimizer",而不是通用智能增强器。

它最自然的落地场景包括:算法题、代码修复、数学推导、结构化规划、配置诊断、数据分析、约束求解,以及那些最终可以跑测试或检查约束的任务。

为什么它比"让模型反思一下"更工程化

很多 agent 或 reasoning pipeline 里都有 self-reflection:先生成答案,再让模型评价,最后改写。

这类方法的问题是太线性。一个候选错了,反思也可能围着这个错误打转。模型经常会给出听起来合理的批评,但改完之后并没有真正跳出原来的路径。

OpenDeepThink 的差异在于群体多样性。

它同时保留多个候选轨迹。每一轮不是单个答案自我修补,而是多个答案竞争、继承和变异。错误路径会被淘汰,较强路径会被保留,critique 变成下一轮 mutation 的燃料。

这更像软件工程里的测试矩阵,而不是单次代码 review。你不会只跑一个 case,然后让程序解释为什么自己对;你会让多个实现、多个输入、多个断言一起暴露问题。

对 AI agent 来说,这种思想很重要。未来的复杂任务不一定靠一个模型一次性给出完美计划,而可能靠一组候选计划并行探索,再通过比较、约束检查和外部验证逐步收敛。

成本问题:27 分钟意味着什么

论文提到,8 轮顺序 LLM 调用约 27 分钟 wall-clock。

这说明 OpenDeepThink 不是面向普通聊天的。你不会希望用户问一个日常问题,系统先跑半小时候选演化。

但在高价值任务里,这个成本可以接受。比如修一个复杂生产 bug、生成一段关键算法、设计一个多步骤实验、优化一个金融模型、完成一次法律或医学前的辅助分析,几十分钟的推理时间并不荒谬。

更重要的是,这类流程天然适合并行化。候选生成、pairwise comparison、mutation 很多部分都可以横向展开。今天论文里的 wall-clock 是一个实验条件,不代表工程上没有优化空间。

未来真正的问题不是"要不要多花推理算力",而是"哪些任务值得多花推理算力"。这会变成产品层面的路由问题:普通请求走低成本路径,高风险高价值请求走 OpenDeepThink 这类重推理路径。

对内容生产和代码 Agent 的启发

OpenDeepThink 对内容生产也有启发,但不能照搬。

如果要写一篇观点文章,多候选 + pairwise ranking 可能会强化流畅、保守、主流的答案,而不是产生更有洞察的文本。因为"哪个观点更好"没有确定裁判,LLM judge 容易奖励熟悉的表达。

但如果把它用于文章事实核查、结构设计、标题候选、论据排序,价值就更明确。比如生成多个大纲,让模型比较逻辑完整性;生成多个标题,让模型比较信息密度和误导风险;生成多个事实摘要,再用来源一致性做约束。

代码 Agent 的场景更直接。一个 agent 可以生成多个 patch,跑测试、静态检查、lint,再让 LLM pairwise 比较可维护性和风险。最后用测试结果和 Bradley-Terry ranking 一起决定保留哪个 patch。

这可能是未来 coding agent 的重要方向:不是一次生成一个 patch,而是生成一个 patch population。

我对这篇论文的判断

OpenDeepThink 值得关注,因为它把 test-time scaling 做得更像一个系统,而不是一个 prompt 技巧。

它承认单次 LLM 判断有噪声,所以用 pairwise comparison 降低绝对评分压力;它承认多候选选择困难,所以用 Bradley-Terry 聚合;它承认一次生成不够,所以引入 critique-driven mutation;它也承认领域差异,所以指出收益在客观可验证任务中更明显。

这类方法不会让每个应用都变快,甚至会让很多任务变慢。但它提供了一个重要范式:当任务足够重要时,我们可以把推理组织成可演化、可比较、可筛选的群体过程。

大模型的下一阶段能力提升,可能不只来自更大的模型,也来自更会调度模型的推理系统。

OpenDeepThink 正是在这个方向上迈出的一步。

相关推荐
Wilber的技术分享1 小时前
【大模型面试八股 3】大模型微调技术:LoRA、QLoRA等
人工智能·深度学习·面试·lora·peft·qlora·大模型微调
kaixuan_dashen1 小时前
Codex使用DeepSeek API的方法(cc switch + codex bridge方案)
人工智能·codex·deepseek·cc switch·codex bridge
threelab2 小时前
Three.js 初中数学函数可视化 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
咖啡里的茶i2 小时前
视觉显著目标的自适应分割与动态网格生成算法研究
人工智能·算法·目标跟踪
怪祝浙2 小时前
AI实战之RAG知识库构建和私有化agent设计
人工智能
weelinking2 小时前
【企业级】企业级大模型合规实战:数据安全与跨境传输的技术解决方案
数据库·人工智能·机器学习·云计算·github
耕烟煮云2 小时前
本文深入解析AI Native产品设计的核心范式——Linear三层架构模型
人工智能·架构
Rewloc2 小时前
人生计算器
人工智能
波动几何3 小时前
内容执行创新正交组合闭集
人工智能