NCoTS：搜索最优推理路径，改进大模型推理效果

一、研究动机

论文标题： NeuralChain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models

论文地址： https://arxiv.org/pdf/2601.11340

作者背景： 中山大学

代码仓库： https://github.com/MilkThink-Lab/Neural-CoT-Search

1.1 问题背景

研究人员认为，当前大模型存在推理路径规划能力不足的问题，即只擅长逐步生成推理步骤，缺乏对整体推理方向的前瞻思维，容易陷入低效的推理模式：

频繁输出"Wait"、"Hmm"等反思性 token，触发不必要的验证步骤
陷入过度的分支探索，导致推理冗余
无法预见最优推理方向，走入次优路径

这就像一个人在解决问题时，只顾着埋头往前走，却不抬头看看是否走在正确的道路上。

1.2 关键发现：混合引导实验

这不禁让我们设想：如果模型能在思考的关键转折点上做更充分的搜索，效果会不会更好？

观察 CoT 数据特点不难发现，模型通常会在每个决策点处，先吐出一个"开头词/转向词"来决定下一步的语气与方向，比如：

"Wait" → 往反思/检查的模式走
"Then / So" → 往继续推导的模式走
"Alternatively" → 往分支探索走

于是作者设计了一个巧妙的实验：以 7B 模型为研究对象，要求模型推理时用"\n\n"作为每个推理步骤之间的间隔，然后在每个推理步骤的开头，使用更大的模型（32B）为其生成一个引导 token，7B 模型继续完成后续推理

实验结果令人惊讶：

这些引导 token 仅占总输出的 2.9%
却带来了平均 6.2% 的准确率提升

这说明小模型具备足够的执行能力，但缺乏高层次的战略规划能力。更重要的是，这一结论验证了开头的设想：存在更优的推理关键 token 让模型推理效果更好，推理任务可被视作路径搜索问题

二、方法原理与实现

2.1 整体框架

论文提出了 Neural Chain-of-Thought Search (NCoTS) 框架，其核心思想是：搜索如何思考（Search How to Think）。

与传统方法顺序生成推理步骤不同，NCoTS 在完成每一个推理步骤后会"停下来思考"------评估下一步该采取什么样的思维模式，然后选择最优方向继续前进。

整体流程包含四个阶段：

暂停生成 ：检测到步骤分隔符（\n\n）时暂停
前瞻模拟：将所有候选推理操作符投影到未来上下文
启发式评估：用双因子函数评估每个方向的成功概率和效率
策略选择：基于综合得分采样最优操作符，恢复生成

2.2 核心概念定义

决策点

NCoTS 将推理链分解为一系列离散的步骤，步骤之间用 \n\n 分隔符标记。这些分隔符的位置就是"决策点"------模型需要决定下一步走向何方的关键节点。

推理操作符

在每个决策点，模型会输出一个"思维 token"来指示后续步骤的逻辑方向。这些 token 被定义为推理操作符，组成一个有限集合：

复制代码

O = {"Wait", "So", "Then", "Let", "Thus", "Therefore", "The", "Alternatively", ...}

推理架构

操作符的序列 α = (o₁, o₂, ..., oₜ) 定义了推理的高层次结构，论文称之为"推理架构"。NCoTS 的目标就是找到最优架构 α*，在最大化准确率的同时最小化序列长度。

2.3 双因子启发式函数

这是 NCoTS 的核心创新------用一个复合启发式函数 H(hₜ, o) 来评估在当前状态下应用操作符 o 的效果。

路径潜力估计

目标：预测特定推理方向导致正确解的概率

实现：一个线性投影层，将最后的隐藏状态映射到操作符集合的 logits

训练：通过策略蒸馏从更大的教师模型学习。将教师模型在操作符上的概率分布视为专家策略 P_T，最小化 KL 散度：

L pot = E h t ∼ D [ D KL ( P T ( h t ) ∥ H pot ( h t ) ) ] \mathcal{L}{\text{pot}} = \mathbb{E}{h_t \sim \mathcal{D}} \left[ D_{\text{KL}}\Big( P_T(h_t) \;\big\|\; \mathcal{H}_{\text{pot}}(h_t) \Big) \right] Lpot=Eht∼D[DKL(PT(ht) Hpot(ht))]

直觉：大模型拥有更强的高层次规划能力，通过蒸馏将这种能力迁移到搜索过程中，充当"正确性指南针"。

推理进度估计

目标：估计推理路径的效率，预测当前已完成解决方案的比例。

实现：一个线性回归头，将隐藏状态映射到一个标量值（比如当前进度: 80%）

训练：在 token 级别的密集监督任务上训练。对于路径中位置 k 的每个 token，其进度标签为 lₖ = k/L，最小化均方误差：

L prog = E ( h k , l k ) ∼ D [ ∥ H prog ( h k ) − l k ∥ 2 ] \mathcal{L}{\text{prog}} = \mathbb{E}{(h_k, l_k) \sim \mathcal{D}} \left[ \left\| \mathcal{H}_{\text{prog}}(h_k) - l_k \right\|^2 \right] Lprog=E(hk,lk)∼D[∥Hprog(hk)−lk∥2]

直觉：通过最大化预测进度，搜索算法会偏好那些能显著推进推理状态的操作符，有效惩罚冗长或循环的步骤

2.4 搜索算法

单步前瞻

在决策点 t，对于每个候选操作符 o ∈ O，将其附加到当前 KV 缓存来模拟下一步。由于思维 token 决定了思维模式，这种轻量级前瞻足以捕获分支的语义轨迹，而无需完整生成整个步骤。

启发式评分

对每个分支计算综合得分，整合潜力和效率：

S ( o ) = H potential ( h t , o ) ⏟ 成功潜力 + λ ⋅ H progress ( h t , o ′ ) ⏟ 效率进度 S(o) = \underbrace{\mathcal{H}{\text{potential}}(h_t, o)}{\text{成功潜力}} + \lambda \cdot \underbrace{\mathcal{H}{\text{progress}}(h'{t,o})}_{\text{效率进度}} S(o)=成功潜力 Hpotential(ht,o)+λ⋅效率进度 Hprogress(ht,o′)

其中 λ 是控制简洁性权重的超参数。

概率选择

使用 Softmax 函数将得分转换为概率分布：

P search ( o ∣ h t ) = exp ⁡ ( S ( o ) / τ ) ∑ o ′ ∈ O exp ⁡ ( S ( o ′ ) / τ ) P_{\text{search}}(o|h_t) = \frac{\exp\left( S(o) / \tau \right)}{\sum_{o' \in \mathcal{O}} \exp\left( S(o') / \tau \right)} Psearch(o∣ht)=∑o′∈Oexp(S(o′)/τ)exp(S(o)/τ)

从该分布中采样最终操作符 o*，保证选择的推理方向既策略合理又计算高效，并保留一定的随机性以提高探索能力

三、实验结果

3.1 实验设置

数据集：四个多样化基准测试

AMC23：美国数学竞赛题目，测试复杂数学推理
ARC-C：抽象推理挑战，测试常识推理
GPQA：研究生级问答，测试知识密集型推理
GSM8K：小学数学题，测试多步算术推理

模型：DeepSeek-R1-Distill-Qwen 系列（1.5B、7B、14B、32B）

评估指标：

准确率（Acc）
平均生成长度（Length）
效率指标（η）：综合衡量性能提升与计算节省的复合指标

η = ( A new A original ) 2 ⋅ L original L new \eta = \left( \frac{A_{\text{new}}}{A_{\text{original}}} \right)^2 \cdot \frac{L_{\text{original}}}{L_{\text{new}}} η=(AoriginalAnew)2⋅LnewLoriginal

3.2 主要结果

核心发现：

帕累托改进：NCoTS 同时提升了准确率并降低了生成长度，实现了真正的双赢
最高效率：在所有设置下，NCoTS 一致取得最高的效率指标 η
显著压缩：在 GSM8K 上，1.5B 模型的生成长度减少超过 50%，同时准确率仍有提升
任务适应性：在推理密集型任务（如 AMC23、GSM8K）上效率提升最大

3.3 解空间可视化

论文通过随机搜索实验绘制了"准确率-长度"的密度热力图，揭示了四个关键发现：

操作符选择导致高方差：不同操作符选择会导致截然不同的结果
标准解码次优：原始基线远未达到理论性能边界
优质路径存在：存在同时具有更高准确率和更短长度的帕累托优质解
优质解稀疏：这些优质路径在解空间中非常稀疏，需要有针对性的搜索

3.4 消融实验

两个估计器各有独特贡献：

潜力估计器确保正确性
进度估计器优化简洁性
二者协同才能达到最佳效果

四、后续研究方向

4.1 多语言与创意任务扩展

当前的操作符集合主要针对英语 STEM 推理任务优化。未来可以：

为不同语言设计特定的思维 token
针对创意写作等任务重新校准操作符集合

4.2 超越教师监督

当前的潜力估计器依赖教师模型监督，理论上受限于教师的规划能力。未来可以：

采用强化学习使模型能够自我改进
探索超越教师分布的更优策略

4.3 动态决策点检测

当前使用静态的换行符作为决策点分隔符，可能过于僵化。未来可以：

基于熵值动态触发决策点
根据推理难度自适应调整搜索频率

4.4 全局搜索机制

当前采用局部单步前瞻策略，在极端复杂场景下限制了长期规划能力。未来可以：

探索类似 MCTS 的全局搜索机制
在计算开销和规划深度之间寻找平衡

五、启发与思考

5.1 思维 token 的控制机制作用

论文的一个深刻洞察是：思维 token 不仅仅是表面的前缀，而是控制下一步思维模式的机制。

就像人类在复杂推理时会动态切换思维模式（陈述、总结、反思、探索），LLM 也需要这种能力。"Wait"触发反思，"Then"推进执行，"Alternatively"开启探索。选择正确的思维 token 就是选择正确的思维模式。

5.2 "下一个 token 预测"的局限性

论文揭示了一个根本性问题：高效推理的瓶颈在于下一个 token 预测的近视性。

模型在生成每个 token 时只看到局部信息，无法预见整体推理路径。这就需要为模型赋予"预见能力"------不是预测下一个 token 是什么，而是规划"该怎么思考"。

5.3 搜索与生成的统一

NCoTS 将推理过程从纯粹的"生成"转变为"搜索+生成"的混合范式：

在宏观层面搜索最优推理架构
在微观层面执行具体推理步骤

这种分层思想可能对未来的 LLM 设计有启发意义。

5.4 效率与正确性的平衡

传统上，缩短推理长度往往会损害准确率。NCoTS 证明了通过智能搜索，可以同时优化两个目标。这提示我们：冗余推理本身就是一种错误，精简的推理往往更准确。

5.5 轻量级增强的有效性

NCoTS 新增的参数量仅占模型的 0.0017%，却带来了显著的性能提升。这表明：对现有模型的轻量级增强可能比从头训练更高效。这个思路可以推广到其他模型能力增强场景。