51c大模型~合集177

自己的原文哦~ https://blog.51cto.com/whaosoft/14154064

#公开V3/R1训练全部细节！

刚刚，DeepSeek最新发文，回应国家新规

AI 生成的内容该不该打上"水印"？网信办《合成内容标识方法》正式生效后，DeepSeek 率先做出回应：以后凡是 AI 生成的内容，都会明确标注，并同步公开了《模型原理与训练方法说明》。

网信办发布的《人工智能生成合成内容标识办法》已正式生效。

其中，第四条要求：对符合要求的AI生成合成内容添加显式标识。

刚刚，DeepSeek 官微发布了最新回应公告------凡是 AI 生成的内容，都会清楚标注「AI 生成」。

它还郑重提醒，用户严禁恶意删除、篡改、隐匿标识，更别提用 AI 传播、制作虚假信息。

此外，这次还发布了《模型原理与训练方法说明》，可以一瞥 DeepSeek 的技术路径。

接下来，深入探索一下 DeepSeek V3/R1 的一些训练细节。

文档链接：https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

01 回应新要求，DeepSeek公开技术说明

DeepSeek 主要介绍了大模型的训练和推理阶段，包括预训练、优化训练（微调）以及训练数据等。

不同大模型的神经网络架构

模型训练

模型训练阶段即模型的开发阶段：通过设计好的深度神经网络架构和训练方法，开发人员开发出可被部署使用的模型。

模型由多层神经网络组成，不同的架构直接影响模型的性能。此外，模型性能也受参数规模的制约，而训练的目的就是找到具体的参数值。

目前，大模型的参数规模数以亿计。最新的 DeepSeek-V3-0324，参数总量为 6850 亿。

在训练过程中，这些参数通过梯度下降算法迭代优化。

这次，DeepSeek 把模型训练分为预训练 和优化训练两个环节。

预训练：预训练目标是通过数据训练模型，使模型掌握通用的语言理解与生成能力。

优化训练：也称为微调，是在预训练模型的基础上通过特定任务的数据进一步调整模型参数，使模型适应实际应用场景。

在预训练阶段，模型通过大规模自监督学习，从文本数据中学习语言模式与知识关联。预训练完成后，模型能理解并生成连贯的文本，但还不会精准地回答问题或执行任务，因此需要进一步的训练微调。

在优化训练阶段，模型一般通过 SFT、RL 等方法，学会根据指令回答问题，符合人类的偏好和需求，并激发在特定领域的专业能力。

经过优化训练的模型能更好地满足实际需求，可被部署使用。

02 DeepSeek的训练过程

DeepSeek 模型的能力，是建立在高质量、大规模、多样化的数据之上。

在「预训练阶段」和「优化训练阶段」，各有不同。

预训练阶段

在预训练阶段，主要使用了两类数据：

复制代码

互联网公开可用的信息，比如网页、公开文档等。

与第三方合作获取许可的数据

需要强调的是，在此阶段，根本无需获取个人信息用于训练，DeepSeek 不会有意关联至任何特定账户和个人，更不会主动将其用于训练模型。

不过，预训练数据规模过于庞大，可能偶然包含了一些个人信息。

对此，DeepSeek 会通过技术手段，尽力筛查并移除这些信息，确保数据「干干净净」。

为了保证数据质量、安全、多样，他们还打造了一套硬核数据治理流程------

首先，通过「过滤器」自动剔除仇恨言论、色情低俗、暴力、垃圾信息，以及可能侵权的原始数据。

其次，通过算法+人工审核，识别并降低数据中的统计性偏见，让模型更公平、更客观。

优化训练阶段

到了优化训练阶段，一般需要通过人工或自动化的方式构造、标注一批问答对数据来对模型进行训练。

DeepSeek 这次表示：这些问答对数据是由研究团队生成提供的，其中少部分数据的构造可能会基于用户的输入。

在 DeepSeek-R1 训练中，研究人员直接提示模型生成包含反思和验证的详细答案；收集并整理 DeepSeek-R1-Zero 的输出，使其具有可读性；以及通过人工注释者的后期处理来提高数据质量

如涉及利用用户的输入构造训练数据，DeepSeek 会对数据进行安全加密技术处理、严格的去标识化和匿名化处理，从而尽可能避免训练数据关联到任何特定个人，且不会在模型给其他用户的输出中带有个人信息，更不会将其用于用户画像或个性化推荐。

同时，DeepSeek 为用户提供了选择退出的权利。

为了确保模型的安全性，在模型优化训练阶段，DeepSeek 构造了专门的安全数据对模型进行安全对齐，教会模型的回复符合人类的价值观，增强模型内生的安全能力。

模型推理

模型的推理阶段即模型被部署提供服务。

模型训练完成并被部署后，可以通过对输入信息进行编码和计算来预测下一个 token，从而具备文本生成和对话等能力。

部署后的模型能够熟练执行基于文本生成的广泛多样的任务，并可以集成到各种下游系统或应用中。

具体到 DeepSeek 的产品服务，基于用户的输入，模型采用自回归生成方式，基于输入的上下文内容，通过概率计算预测最可能的接续词汇序列。

推理完成后，模型输出相应的内容作为响应，包括文字、表格和代码等。

此并非简单检索或「复制粘贴」训练数据中的原始文本，模型也并未存储用于训练的原始文本数据副本，而是基于对语言结构和语义关系的深度理解，动态生成符合语境的回答。

DeepSeek 这次还强调模型开源。

我们通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等，并采用宽松的 MIT 协议，供使用者自由、免费下载部署使用。

同时，DeepSeek 发布各模型的完整技术报告，供社区和研究人员参考，并帮助公众更深入地了解每个模型的技术原理和细节。

03 全周期对抗LLM的局限性和风险

毋庸置疑，当前 AI 发展还在早期阶段，存在无法避免的局限性。

若是再被加以滥用，将会带来严重的后果。

局限性

AI 往往会生成错误、遗漏，或不符合事实的内容，这种现象统一称之为「幻觉」。

这个问题，是整个 AI 行业面临的挑战。

对此，DeepSeek 正通过一些技术手段降低幻觉率，包括高质量的训练数据、优化对齐策略、RAG等，但现阶段依无法完全消灭。

同时，他们还在欢迎页、生成文本的末尾，以及交互界面底部，添加显著的提示标识。

特别提醒用户------内容由人工智能生成，可能不准确。

因此，AI 生成的内容仅供参考，所有人不应将输出的内容作为专业建议。

尤其是，在医疗、法律、金融等专业领域，DeepSeek 不提供任何建议或承诺，专业的事儿还得找专业的人。

2.滥用风险

AI 技术本身是中立的，但滥用可能带来隐私保护、版权、数据安全、内容安全、偏见歧视等风险。

DeepSeek 对此也是高度重视，采取了一系列硬核措施，贯穿了模型研发、训练、部署的全生命周期。

制定内部风险管理制度

开展模型安全性评估

进行红队测试

增强模型和服务透明度等

更重要的是，DeepSeek 还赋予了用户知情权、选择权、控制权------

你可以查询服务的基本信息、拒绝其数据用于模型训练、删除其历史数据等。

参考资料：

#BED-LLM

苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？

在这场以大型语言模型（LLM）为核心的 AI 浪潮中，苹果似乎一直保持着低调，很少出现在技术报道的前沿。尽管如此，时不时地，该公司也能拿出一些非常亮眼的研究成果，比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

近日，苹果与牛津大学和香港城市大学合作的一项新研究吸引了不少关注。其中提出了一种名为 BED-LLM 的新方法，能让 AI 解决问题的能力直接提升 6.5 倍（成功率从 14% 暴增至 91%），而整个过程无需微调或重新训练，直接在当前模型上运行即可。

而实现这一突破的关键，便是让 AI 学会问出完美的问题。

那么，究竟该如何做到这一点呢？

论文标题：BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
论文地址：https://arxiv.org/abs/2508.21184

这要从 LLM 的一个不足之处说起，即难以智能且自适应的方式主动从用户或外部环境中获取信息。这就像是 LLM 的「多轮遗忘症」。

具体而言，虽然现代 LLM 通常能够一次性生成连贯且富有洞察力的问题（或其他外部查询），但它们通常难以根据先前在交互式任务中收集到的答案进行适当的调整。比如，已有研究证明，LLM 在多步猜谜游戏、任务澄清、IT 任务自动化以及迭代式外部工具使用等问题上表现不佳。

因此，提高 LLM 自适应地提出问题和有针对性地收集信息的能力是很有必要的。

简单来说，LLM 仅仅基于其庞大的知识库一次性生成好问题是不够的。真正的智能体需要能根据用户的实时反馈，动态调整策略，精准地提出下一个最有价值的问题。

BED-LLM：让提问成为一门科学

牛津、苹果和香港城市大学的这个联合团队提出，可以使用序贯贝叶斯实验设计（Bayesian experimental desig/BED）框架来解决这一问题。

该框架提供了一种基于模型的信息论机制，可用于在给定实验的生成模型的情况下做出自适应设计决策。

具体而言，该团队展示了如何将使用 LLM 进行交互式信息收集的问题表述为一个序贯实验设计问题，其中有一个迭代过程：

每次选择要问的问题（query），都要尽量最大化预期信息增益（Expected Information Gain, EIG）。
根据用户的回答更新信念（belief）。
再基于新的信念选择下一步要问的问题。

这就像科学实验：一步步设计实验、收集数据、更新假设，而不是一次性问到底。

这里，构成序贯 BED 程序的底层生成模型源自 LLM，该团队特别展示了该模型的构建方式，并为关键设计决策提供了广泛的见解。

该团队将这种方法命名为 BED-LLM，即 Bayesian Experimental Design with Large Language Models。

这种名为 BED-LLM 的方法之所以高效，源于其背后三重智慧的巧妙设计：

智慧一：追求真正的信息增益，而非表面上的不确定性

过去的方法常常让 AI 选择自己「感觉最不确定」的问题，但这并非最优解。BED-LLM 的核心是精确计算 EIG，确保问题能带来最大价值。

论文中一个生动的例子可以说明这一点：假设 AI 想了解你的电影偏好，它有两个问题可选：

问题 A：「你最喜欢什么口味的冰淇淋？」
问题 B：「你最喜欢哪种电影类型？」

对于问题 A，AI 可能完全猜不到答案（即预测熵很高），但这个答案对于了解你的电影品味毫无帮助（EIG 为 0）。而问题 B 的答案虽然也不确定，但无论你回答「科幻」还是「喜剧」，都能极大地帮助 AI 缩小猜测范围，因此它的 EIG 非常高。BED-LLM 正是基于这种原则来选择问题的。

智慧二：强制逻辑自洽，纠正 LLM 的遗忘症

研究发现，即便是 GPT-4o 这样顶尖的模型，在多轮对话中也常常会忘记之前的约束，提出与历史回答相矛盾的假设。

BED-LLM 引入了先采样后过滤 (sample-then-filter) 策略来解决这个问题。

它首先让 LLM 生成一批可能的答案（例如，在猜名人游戏中生成多个候选人），然后用一个「逻辑过滤器」逐一检查这些答案是否与用户之前的所有回答都兼容，将不符合逻辑的选项直接剔除。这确保了 AI 的每一步推理都建立在已知的事实之上。

智慧三：生成问题有的放矢，而非天马行空

在生成候选问题时，BED-LLM 采用了一种更具针对性的条件生成 (Conditional generation) 策略。它会先参考当前已经过筛选、逻辑自洽的假设池，然后让 LLM 提出能够最高效「切分」这些假设的问题。这使得提问从一开始就目标明确，直指核心。

结果如何？

为了验证 BED-LLM 的效果，研究团队将其与两种主流基准进行了对比：

Naive QA：完全依赖 LLM 的「直觉」来提问。
Entropy：采用简化的 EIG 版本，即只考虑预测不确定性的方法。

结果显示，无论是在「20 个问题」猜谜游戏还是电影偏好推荐任务中，BED-LLM 的表现都全面超越了基准方法。

具体而言，该团队首先发现，BED-LLM 在各种 LLM 和目标数量下，显著提升了 20 个问题问题的成功率。例如，在使用 Mistral-Large 预测名人时，该团队观察到成功率从 14% 提升至 91%。

其次，该团队展示了 LLM 在电影推荐方面取得的显著改进，表明即使 LLM 的预测模型与回答者的预测模型不同，这些优势依然有效。

更具现实意义的是，研究团队还进行了一项「模型跨服聊天」的压力测试：让提问的 AI 和回答的 AI 使用完全不同的模型（例如，提问方是 Qwen，回答方是 GPT-4o-mini）。

这种设置更贴近真实世界，因为用户的思维模型与 AI 本就不同。即便在这种「模型失配」的情况下，BED-LLM 的性能优势依然稳固，展现了其强大的稳健性。

总而言之，这项研究为我们展示了如何通过严谨的数学框架，将 LLM 从一个被动的知识问答库，转变为一个主动、高效、且具备逻辑推理能力的信息收集者。这或许预示着，未来的 AI 交互将不再是简单的一问一答，而是真正意义上的「智慧对话」。

#Learning Curves

Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘

AI 也要「考古」式科研？

人工智能的「第一性原理」扩展定律（Scaling Laws），把模型性能与算力等资源投入联系在了一起，是如今人们构建更先进大模型重要的参考标尺。

有关扩展定律的起源，存在很多种说法，有人认为是 2020 年 OpenAI 提出的，有人认为是 2017 年百度发现的，详情可参阅我们之前的报道《遗憾不？原来百度 2017 年就研究过 Scaling Law，连 Anthropic CEO 灵感都来自百度》。

前些天，康奈尔大学博士生、Meta 研究员 Jack Morris 发推称 Scaling Law 的真正探索者其实是贝尔实验室，这又进一步将历史向前推到了 1993 年。

他进一步解释说，这篇论文其实是一篇 NeurIPS 论文。贝尔实验室的研究者「在不同大小的数据集、不同大小的模型上训练了分类器并拟合了幂律」。这让 Morris 不禁感叹：「不敢相信这已经是 32 年前的事了。」

近日，OpenAI 联合创始人、总裁 Greg Brockman 也转发了这一消息，并表示这些结果跨越了多个数量级和几十年的时间，经历了时间的考验，可以说揭示了深度学习的根本。

这也不得不让人赞叹贝尔实验室的前瞻性和众多开创贡献：

贝尔实验室的 Scaling Law

回到人们正在讨论的这篇论文本身。它是一篇 AI 顶会 NeurIPS 论文：

论文标题：Learning Curves: Asymptotic Values and Rate of Convergence
论文链接：https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

这篇论文介绍说，基于大规模数据训练分类方法是相当耗费算力的工作。因此，开发高效的程序来可靠地预测分类器是否适合执行给定任务至关重要，这样才能将资源分配给最有潜力的候选分类器，或腾出资源来探索新的候选分类器。

作者提出了一种实用且有原则的预测方法，避免了在整个训练集上训练性能较差的分类器的高成本过程，同时拥有坚实的理论基础。作者证明了所提方法的有效性，以及适用于单层和多层网络。

在该工作中，作者研究了自动分类的算法，随着训练数据逐步增加，分类器的能力（模型出错的概率）被持续标记。在测量了多个数据点后，可以发现模型的错误率对比训练数据的数量，在对数曲线上呈现出了一定的规律。

作者进而得出结论：「经过 12000 种模式的训练后，很明显新网络的表现将优于旧网络...... 如果我们的预测方法能够对网络的测试误差做出良好的定量估计，我们就可以决定是否应该对新架构进行三周的训练。」

这就意味着模型的规模扩大，AI 的智能会越来越强；而这就是 Scaling Law（扩展定律）！

从几万条数据训练的机器学习模型开始，到去年 GPT-4 上万亿巨量数据集、万亿参数的规模，几十年来，扩展定律一直有效。

作者介绍：从「国宝」到「疯狂科学家」

这篇论文一共有 5 位作者：Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的传奇经历。

Corinna Cortes

这篇论文的一作 Corinna Cortes 已经拥有超过 10 万引用！她与四作 Vladimir Vapnik 也是经典论文《Support-vector networks》（引用量超过了 7.7 万）的两位作者。这篇论文提出了大家熟知的现代意义上的支持向量机。

另外，她还与 LeCun 等人一起构建了著名的 MNIST 数据集，而这也成为了后续大量研究的重要基础数据集。

也无怪乎有人在评论区称她是「国宝」：

Corinna Cortes 的职业履历很简单：先在贝尔实验室工作了 14 年，之后于 2003 年加入谷歌，领导 Google Research NY 达 21 年之久。现在她是 NeurIPS 的董事会成员之一。她同时也是一名竞技跑步运动员。

Lawrence D Jackel

这篇论文的二作 Lawrence D Jackel 是时任的贝尔实验室应用系统研究部门负责人。1988 年 Yann LeCun 加入该实验室后，与他合作完成了多项高引用研究成果，其中包括一篇重要的反向传播论文《Backpropagation applied to handwritten zip code recognition》。

Sara A. Solla

Sara A. Solla 则是一名物理学家和神经科学家。她最高引用的论文也是与 Yann LeCun 合著的《Optimal brain damage》。

该论文运用信息论的思想，推导出了一类用于调整神经网络规模的实用且近乎最优的方案。通过从网络中移除不重要的权重，可以预期实现多项改进：更好的泛化能力、更少的训练样本需求以及更快的学习和 / 或分类速度。其基本思想是利用二阶导数信息在网络复杂度和训练集误差之间进行权衡。

Vladimir Vapnik

前文我们已经见到过 Vladimir Vapnik 的名字，即支持向量机的作者之一。除此之外，这位拥有超过 33.5 万引用的大佬还是统计学习领域著名的 Vapnik--Chervonenkis 理论的提出者之一 ------ 是的，这个理论就是以他和苏联数学家 Alexey Chervonenkis 的名字命名的。

Vladimir Vapnik 在 1995 年出版的《The Nature of Statistical Learning Theory》是系统化提出统计学习理论（Statistical Learning Theory, SLT）的代表作，堪称机器学习领域的里程碑。

John S. Denker

John S. Denker 则更是一位多才多艺的研究者，涉足过大量不同领域，甚至可以说是天才（Genius）的代名词。

他曾就读于加州理工学院。大三时，他创办了一家成功的小型软件和电子公司，在安防系统、好莱坞特效、手持电子游戏和视频游戏等多个领域做出了开创性的工作。此外，在读本科期间，他还在加州理工学院创建并教授了一门课程：「微处理器设计」。

他在康奈尔大学的博士研究考察了氢原子气体在仅比绝对零度高千分之几摄氏度的温度下的性质，并表明在这种稀薄的玻色气体中存在量子自旋输运和长寿命的「自旋波」共振。他的其他研究涉及超低噪声测量设备的设计 ------ 其中基本的量子力学限制起着重要作用。

Denker 博士加入过 AT&T 贝尔实验室多年时间，曾担任杰出技术人员、部门主管和部门经理等职务。他的研究兴趣包括计算机安全、选举安全、网络电话和神经网络。他还发明了新型低能耗「绝热」计算系统。

1986 年至 1987 年，他担任加州大学圣巴巴拉分校理论物理研究所客座教授。他曾担任多个重要科学会议的组委会委员。

他拥有多项专利，撰写了 50 多篇研究论文和一本书的章节，并编辑了《Neural Networks for Computing》一书。他的演讲范围广泛。

他以爱恶作剧和典型的疯狂科学家而闻名。他的一些事迹曾被改编成电影《Real Genius》和《The Age Seeking for Genius》，并刊登在《时代》和《IEEE Spectrum》等刊物上。

John Denker 还拥有商用飞行员、飞行教练和地面教练资格。他是美国联邦航空管理局（FAA）的航空安全顾问。他曾任蒙茅斯地区飞行俱乐部董事会成员，以及美国国家研究委员会商用航空安全委员会成员。

Scaling Law 的历史可能还能继续向前追溯

有意思的是，在相关推文的评论区，有不少研究者评论认为贝尔实验室的这篇论文其实也不是 Scaling Law 的最早论文。

比如著名研究者、科技作家 Pedro Domingos 表示其实心理学领域才是最早探索「学习曲线」的领域。

研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世纪 60 年代就已经研究过样本大小方面的 Scaling Law。

而 @guillefix 则表示 Frank Rosenblatt 在 1958 年发表的感知器论文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已经给出了非常清晰的学习曲线。

此外，𝕏 用户 @lu_sichu 提出了 1992 年日本工程师和神经科学家甘利俊一（Shun-ichi Amari）写的论文《A Universal Theorem on Learning Curves》也比贝尔实验室的上述论文更早一些。

其中证明了一类普适的学习曲线渐近行为，适用于一般的无噪声二分机器或神经网络。结果表明：无论机器的架构如何，其平均预测熵或信息增益 <e*(t)> 都会在训练样本数 t 增加时收敛至零，并满足 <e*(t)> ~d/t 的规律，其中 d 为机器的可调参数的个数。

纵观数十年的研究脉络，Scaling Law 的提出并非灵光乍现的顿悟，而是跨越学科、跨越时代的逐步累积。从心理学的学习曲线，到感知器的早期探索，再到 Vapnik、Amari、贝尔实验室的系统化研究，最后发展到 OpenAI 等机构在大规模实验中验证和推广，每一代学者都在为这条「经验定律」添砖加瓦。

今天我们所说的 Scaling Law，看似清晰而坚固，但它背后蕴含的是数十年理论与实践的反复印证。正如 Brockman 所言，它揭示了深度学习的根本，而这一「根本」并不是一蹴而就的，而是科学探索在时间长河中的积累与沉淀。

对此，你怎么看？

#Stepwise Reasoning Checkpoint Analysis

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。

为解决这些问题，华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析（SRCA）框架 ------ 在推理步骤间引入 "检查点"，并集成两大核心策略：（1）答案聚类搜索（Answer-Clustered Search）：根据中间检查点答案对推理路径进行分组，在保证质量的同时维持路径多样性；（2）检查点候选增强（Checkpoint Candidate Augmentation）：利用所有中间答案辅助最终决策。

实验结果表明，在多个数学数据集上，如 MATH500 和 OlympiadBench，SRCA 相较于现有 TTS 方法，推理准确性均有提升。该论文已被 EMNLP 2025 接收。

论文题目：Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
论文链接：https://arxiv.org/abs/2505.17829

Test Time Scaling（TTS）技术简单来说就是在模型测试阶段 "砸资源"：不改变模型本身，而是通过增加推理时的计算开销，让 LLM 在解题时 "多想一会儿"，从而显著提升推理准确性。除了常见的长思维链，比如 DeepSeek R1 典型的 think 模式，多次采样并有策略的搜索正确解题路径也是一种常见的 TTS 策略。

我们常用的多数投票 / 自我一致性（Self-Consistency）可以视为是最朴素的 TTS 技术。比如让模型对一道数学题生成 10 个推理过程，最后选出现次数最多的答案。这种看似简单的方法，却能显著提升模型推理的准确率 ------ 代价是多花几倍计算时间。

随着任务难度提升，这种暴力提升采样次数的做法效率越来越低。于是研究者们引入了额外的打分模型，比如一个过程奖励模型（PRM），从而开发了更先进的 TTS 算法。

Beam Search：（左图）每次采样得到的路径由 PRM 打分，保留得分最高的 k 条推理路径继续深入，避免在错误方向浪费资源；
DVTS（Diverse Verifier Tree Search）：（右图）同时维护多个独立的推理树，每棵树向下探索 PRM 打分最高的路径。强迫模型探索不同解题思路，减少 "一条道走到黑" 的风险。

不过这类方法仍然存在两个问题。

两大痛点

思路太单一：明明生成了多条推理路径，最终却都往一个方向扎堆（路径同质化）。这是由 PRM 的局限性带来的：并不完美的 PRM 打分具有隐式的偏好，选出的路径往往具有一定的共性。这有时会导致一些思路不同但并未出错的解题路径打分略低未能被继续探索。
中间结果浪费：推理过程中产生的大量中间过程被直接丢弃。以 Beam Search 为例，假设采样次数为 16，束宽为 4，则采样中 75% 的步骤将被直接丢弃。这其中不乏一些优质的正确的解题思路，但是这些中间过程并未有效贡献到最终答案的决策中。

我们的解法：给推理过程 "设检查点"

针对这些问题，我们提出了 SRCA（Stepwise Reasoning Checkpoint Analysis）框架，该框架包含三个关键组件：

检查点注入：强制模型在每一步推理后暂停并输出阶段性答案。
答案聚类搜索：把检查点答案一样的推理路径归为一组，并从每组内选择路径继续推理。
检查点候选增强：收集所有检查点答案加入到最终答案的选择。

下面是每个组件的具体介绍。

检查点注入（Checkpoint Injection）：打断推理并预测答案

检查点注入是 SRCA 的基础技术，后续的 ACS 和 CCA 算法全部依赖于检查点注入收集到的中间答案，核心思路是强制模型在每一步推理后暂停并输出阶段性答案。早期的工作中亦有类似的探索，chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同样是利用暂停推理收集答案的思路观测模型推理时置信度 (confidence) 的变化以判断模型推理是否准确。而检查点注入则更关注模型阶段性推理的答案本身，具体流程如下：

检测步骤结束符（如 "### Step"）：当检测到此类字段时，说明 LLM 的上一步推理已经结束，可以进行答案检查。
插入提示 "So the answer is"：我们通过插入后缀强行改变上下文，模型沿着新的上下文继续解码，输出它所认为的答案。
记录检查点答案：该答案是我们后续改进搜索策略和投票的重要依据。

通过这样的方式，我们可以收集到模型基于当前推理步骤得出的答案。这种 "中间答案" 尽管并不完整和精确，但它们在一定程度上可以代表模型在当前的思考过程，比如两条推理路径得出的中间答案是一样的，我们则可以认为这两条推理路径目前解题的思路和进度是类似的。收集到中间答案后，通过合理的 KV Cache 管理，我们可以将推理状态回滚到上一步推理结束的时刻，从而避免反复推理降低计算开销。

答案聚类搜索（ACS）：防止 "思路扎堆"，鼓励不同解法

基于检查点答案，我们重新设计了路径搜索策略，提出了 Answer Clustering Search 算法。传统方法（如 Beam Search）虽然让模型尝试多条路，但 PRM 打高分的路径往往类似，这就容易提前扼杀搜索路径的多样性，导致最终错过可能的正确答案。

针对路径同质化问题，ACS 在检查点执行双层筛选机制：

组内择优：将同中间答案的路径归组，按组内 PRM 总分排序
组间竞争：采用轮询调度（Round-Robin），按总分顺序从每组抽取最优路径

这样保证了不同解题方向（不同组）都有机会保留至少一条 "种子选手" 继续发展。即使某一种方法（组）目前分数不是最高，只要它整体有潜力，它最好的那条路也有机会被选上。这就大大增加了解题思路的多样性，避免大家一窝蜂挤到一条（可能错的）思路上。

检查点候选增强（CCA）：抢救 "半成品好答案"，变废为宝

在传统树搜索（如 Beam Search / DVTS）中，只有那些最终走完全程的路径才有资格参与最终答案的评选。大量未完成的中间推理步骤被直接丢弃。CCA 通过收集复用这些未完成路径的检查点答案提升模型推理的准确性：

在每一步推理之后，记录收集所有的检查点答案。
即使一条路没走完，它在某个步骤得出的那个中间答案，也可能是最终答案。所以 CCA 会把每个中间答案连同它走到这一步的推理过程，都打包成一个独立的候选答案。这就像把那些半成品抢救出来。
当所有路径都推理结束后（无论是走完还是被淘汰），最终的答案评选不再是只看那几条 "完整" 路径的最终答案。CCA 会把所有收集到的这些 "半成品答案" 和完整路径的最终答案，全部放在一起，根据 PRM 的打分选择最高者。

这样极大减少了 "好答案被中途埋没" 的情况。即使模型后面推理跑偏了，只要它在某个步骤 "灵光一现" 得出了正确结果，CCA 就能把它捞回来，给模型一个 "后悔药"。这大大提高了计算资源的利用率。下面是一个具体的示例：

如图所示，模型推理完成得到的答案是 9，而正确答案是 27。但回顾推理过程中的检查点答案可以发现，模型在第 4 和第 5 步已经得出了 27 这个答案，而错误出在第 6 步 ------9 是一个完全平方数而不是平方立方数。而 CCA 记录收集了所有检查点答案，并综合考虑所有候选答案选出最终结果。可以看到第 5 步的检查点答案得到了最高分 0.7192，该答案被 CCA 恢复并修正了错误答案。

实验结果

TL;DR:

SRCA 框架加持的 1B 小模型在 MATH500 数据集上达到 65.2% 准确率，首次超越参量 70 倍的 70B 大模型（65.0%）
通过答案聚类搜索（ACS）优化路径多样性，SRCA 仅需 16 次采样即可达到其他 TTS 方法 128 次采样的精度。在同等硬件条件下，推理效率提升达 8 倍，从而降低计算成本。
检查点候选增强（CCA）策略成功从中间步骤拯救 19.07% 的正确答案。这些答案诞生于推理中途，却因后续路径偏差被丢弃。CCA 通过复用高质量中间结果，构建了强大的错误容忍机制。
设置合理阈值，当候选池中出现超过阈值的检查点答案即停止推理输出答案，平均可节省 27% 的推理步骤，推理准确率轻微下降 0.58%。

51c大模型~合集177

#公开V3/R1训练全部细节！

#BED-LLM

#Learning Curves

#Stepwise Reasoning Checkpoint Analysis

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx