Chain-of-Thought Prompting：为什么逐步推理能提升大模型准确率

1 引言：从直觉到推理的范式转变

大语言模型（Large Language Models, LLMs）近年来在自然语言处理领域取得了突破性进展，从早期的统计语言模型发展到如今的Transformer架构，模型规模从数百万参数扩展到数千亿参数，其能力边界不断被重新定义。然而，一个长期困扰研究者的核心问题是：这些模型究竟是在真正"推理"，还是仅仅在进行复杂的模式匹配？2022年，Google Research团队发表的里程碑式论文"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"为这一问题提供了全新的视角，揭示了通过逐步推理（step-by-step reasoning）可以显著提升大模型在复杂任务上的准确率。

Chain-of-Thought（CoT）提示技术的出现，标志着大语言模型从"直觉式"响应向"推理式"响应的范式转变。在传统提示方式下，模型倾向于直接给出答案，这种方式类似于人类认知科学中的System 1思维------快速、直觉、但容易出错。而CoT提示则引导模型展示完整的推理过程，将复杂问题分解为一系列中间步骤，这更接近于System 2思维------缓慢、深思熟虑、但更为可靠。这种转变不仅提升了模型在数学推理、常识推理、符号推理等任务上的表现，更重要的是，它为我们理解大语言模型的推理机制提供了新的窗口。

从认知科学的角度来看，人类在解决复杂问题时往往需要借助工作记忆（Working Memory）来维持和操作中间信息。心理学家Alan Baddeley提出的工作记忆模型指出，人类认知系统通过将复杂任务分解为可管理的子任务，逐步处理并整合结果，从而克服认知资源的限制。CoT提示技术恰恰模拟了这一过程：通过生成中间推理步骤，模型能够"展示其工作过程"，将计算负担分散到多个推理步骤中，而非试图一次性完成所有计算。这种机制与人类解决数学问题时的"草稿纸"策略高度相似------我们很少在脑海中完成所有计算，而是通过书写中间步骤来减轻认知负荷。

从计算理论的角度分析，CoT提示的有效性可以从计算复杂度和表达能力两个维度来理解。传统的Transformer架构在理论上存在表达能力限制：对于某些需要多步推理的问题，固定深度的Transformer可能无法在单次前向传播中完成所有必要的计算。然而，当引入CoT机制后，模型可以通过生成中间token来扩展其"有效计算深度"，从而获得更强的表达能力。这一理论洞见由Merrill和Sabharwal在2023年的论文"The Expressive Power of Transformers with Chain of Thought"中得到了严格证明，他们指出CoT可以将Transformer的表达能力从TC⁰复杂度类提升到能够模拟多项式长度电路的程度。

本文将系统性地探讨Chain-of-Thought Prompting的核心原理、理论基础、技术变体以及应用实践，深入分析为什么逐步推理能够显著提升大语言模型的准确率。我们将从认知科学、信息论、计算复杂度等多个理论视角出发，结合最新的学术研究成果，为读者呈现一个全面而深入的技术分析框架。
Chain-of-Thought

Prompting
核心概念
逐步推理
中间步骤生成
推理链构建
理论基础
认知科学
System 1/2思维
工作记忆理论
计算理论
表达能力分析
复杂度理论
信息论
互信息分析
熵减机制
技术变体
Zero-shot CoT
Few-shot CoT
Self-Consistency
Tree of Thoughts
应用领域
数学推理
常识推理
符号推理

2 大语言模型的推理能力与涌现现象

2.1 语言模型的演进与规模法则

大语言模型的发展历程可以追溯到早期的n-gram语言模型，经过循环神经网络（RNN）、长短期记忆网络（LSTM）等架构的演进，最终在2017年迎来了革命性的Transformer架构。Vaswani等人提出的"Attention Is All You Need"论文奠定了现代语言模型的基础架构，其核心创新------自注意力机制（Self-Attention Mechanism）使得模型能够并行处理序列数据，并有效捕捉长距离依赖关系。这一架构突破为后续的预训练语言模型发展铺平了道路。

规模法则（Scaling Laws）的发现是大语言模型发展史上的另一个重要里程碑。Kaplan等人在2020年的研究中发现，语言模型的性能与模型规模、数据规模和计算量之间存在幂律关系。具体而言，模型性能（以交叉熵损失衡量）与这三个因素呈现可预测的幂律衰减关系。这一发现意味着，通过简单地增加模型规模和训练数据，我们可以预期模型性能的持续提升。然而，规模法则也揭示了一个关键问题：某些能力的提升并非线性，而是在特定规模阈值后突然出现------这就是所谓的"涌现现象"（Emergence）。
N-gram模型
RNN/LSTM
Transformer架构
预训练语言模型

BERT/GPT
大规模语言模型

GPT-3/PaLM
涌现能力显现

CoT推理

2.2 涌现能力的定义与特征

Wei等人在2022年的论文"Emergent Abilities of Large Language Models"中系统性地定义了涌现能力的概念：涌现能力是指在小规模模型中不存在，但在大规模模型中突然出现的能力。这种能力的出现具有不可预测性------仅通过观察小规模模型的性能趋势，无法推断出大规模模型是否会获得该能力。这一现象与物理学中的相变（Phase Transition）概念高度相似：正如水在100°C时突然从液态转变为气态，语言模型在达到特定规模阈值后，也会突然展现出新的能力。

涌现能力的典型特征包括：第一，突变性（Discontinuity），能力提升曲线在特定规模点呈现陡峭的跳跃，而非平滑过渡；第二，不可预测性（Unpredictability），从小规模模型的性能外推无法预测涌现能力的出现；第三，多样性（Diversity），涌现能力涵盖多种任务类型，包括算术推理、多步逻辑推理、上下文学习等。这些特征表明，大语言模型的能力发展并非简单的量变积累，而是存在质的飞跃。

表1展示了大语言模型涌现能力的主要类型及其对应的规模阈值：

涌现能力类型	典型任务	规模阈值	代表性模型
上下文学习	Few-shot任务学习	~10B参数	GPT-3 (175B)
指令遵循	按指令完成任务	~100B参数	InstructGPT
Chain-of-Thought推理	多步数学推理	~100B参数	PaLM (540B)
代码生成	程序合成与补全	~10B参数	Codex
常识推理	复杂常识问答	~100B参数	GPT-4

2.3 Chain-of-Thought推理作为涌现能力

Chain-of-Thought推理是大语言模型涌现能力的典型代表。Wei等人在原始CoT论文中发现，只有当模型规模达到约100B参数时，CoT提示才能显著提升推理性能；对于较小的模型，CoT提示甚至可能产生负面影响。这一发现具有重要的理论和实践意义：它表明CoT推理能力并非简单的提示工程技巧所能赋予，而是需要模型具备足够的"推理容量"来支持多步骤的推理过程。

从认知科学的角度来看，CoT推理能力的涌现可以类比于人类认知发展中的阶段性跃迁。皮亚杰的认知发展理论指出，儿童在特定年龄阶段会突然展现出新的认知能力，如客体永久性、守恒概念等。类似地，大语言模型在达到特定规模后，似乎也获得了"推理"的能力。然而，需要指出的是，这种类比存在局限性：模型的"推理"是否真正等同于人类的推理，仍然是一个开放的研究问题。

涌现能力的存在对大语言模型的研究和应用产生了深远影响。首先，它挑战了传统的规模法则观点，表明模型能力的提升并非总是平滑可预测的。其次，它为模型设计提供了新的指导原则：某些能力可能需要通过规模化来实现，而非仅仅依赖架构创新。最后，它也引发了关于模型安全性和可解释性的担忧------如果模型可能突然获得我们未曾预料的能力，我们如何确保其行为符合预期？
大规模模型 (>100B参数)
Chain-of-Thought推理
复杂逻辑推理
跨领域泛化
中规模模型 (10B-100B参数)
上下文学习
指令遵循
代码生成
小规模模型 (<10B参数)
模式匹配
简单问答
文本生成

3 Chain-of-Thought Prompting的核心原理

3.1 从标准提示到思维链提示

在深入理解Chain-of-Thought Prompting之前，我们需要首先明确标准提示（Standard Prompting）的工作方式。在标准提示模式下，用户向模型提出问题，模型直接给出答案。这种方式在简单任务上表现良好，但在需要多步推理的复杂任务上往往力不从心。例如，对于数学应用题"Roger有5个网球，他又买了2罐网球，每罐有3个球，请问他现在有多少个网球？"，标准提示可能直接给出答案"11"，但模型可能通过错误的推理路径得出这一答案，或者纯粹基于模式匹配而非真正的计算。

Chain-of-Thought Prompting的核心思想是引导模型在给出最终答案之前，先生成一系列中间推理步骤。这些步骤构成了"思维链"，展示了模型从问题到答案的完整推理过程。以同样的数学问题为例，CoT提示会引导模型输出："Roger原来有5个网球。他买了2罐网球，每罐有3个球，所以他买了2×3=6个球。因此，他现在总共有5+6=11个网球。"这种显式的推理过程不仅提高了答案的正确率，更重要的是，它使得模型的推理过程变得可检查、可验证。

CoT提示的实现方式主要分为两类：Few-shot CoT和Zero-shot CoT。Few-shot CoT通过在提示中提供若干带有完整推理链的示例，引导模型学习如何生成推理步骤。这种方式需要人工设计高质量的示例，但效果通常更为稳定。Zero-shot CoT则更为简洁，只需在问题后添加"Let's think step by step"（让我们一步步思考）这样的触发短语，即可激活模型的推理能力。Kojima等人在2022年的论文"Large Language Models are Zero-Shot Reasoners"中发现，这一简单的触发短语能够显著提升模型在多种推理任务上的表现。

3.2 思维链的数学形式化

为了更深入地理解CoT的工作机制，我们可以从数学角度对其进行形式化描述。设输入问题为xxx，目标答案为yyy，标准提示方式试图直接建模条件概率P(y∣x)P(y|x)P(y∣x)。然而，对于需要多步推理的复杂问题，直接从xxx映射到yyy可能非常困难，因为这两个变量之间存在复杂的非线性关系。

Chain-of-Thought Prompting引入了一组中间推理步骤z1,z2,...,znz_1, z_2, ..., z_nz1,z2,...,zn，将原始问题分解为条件概率的链式分解：

P(y∣x)=∑z1,...,znP(y,z1,...,zn∣x)=∑z1,...,znP(z1∣x)⋅P(z2∣z1,x)⋅...⋅P(y∣zn,...,z1,x)P(y|x) = \sum_{z_1,...,z_n} P(y, z_1, ..., z_n | x) = \sum_{z_1,...,z_n} P(z_1|x) \cdot P(z_2|z_1, x) \cdot ... \cdot P(y|z_n, ..., z_1, x)P(y∣x)=z1,...,zn∑P(y,z1,...,zn∣x)=z1,...,zn∑P(z1∣x)⋅P(z2∣z1,x)⋅...⋅P(y∣zn,...,z1,x)

在实际生成过程中，模型通过自回归方式依次生成每个中间步骤：

z1∼P(⋅∣x),z2∼P(⋅∣z1,x),...,y∼P(⋅∣zn,...,z1,x)z_1 \sim P(\cdot|x), \quad z_2 \sim P(\cdot|z_1, x), \quad ..., \quad y \sim P(\cdot|z_n, ..., z_1, x)z1∼P(⋅∣x),z2∼P(⋅∣z1,x),...,y∼P(⋅∣zn,...,z1,x)

这种分解方式具有多重优势。首先，它将一个复杂的推理问题分解为多个相对简单的子问题，每个子问题的条件概率分布可能更容易学习。其次，它提供了推理过程的显式表示，使得错误定位和调试成为可能。最后，它允许模型在推理过程中"存储"中间结果，克服了Transformer架构中固定计算深度的限制。

从信息论的角度来看，CoT可以被视为一种信息瓶颈（Information Bottleneck）的缓解机制。在标准提示方式下，模型需要在单次前向传播中完成从输入到输出的所有信息处理，这可能导致信息损失。而CoT通过引入中间步骤，为模型提供了额外的"存储空间"来保存和处理中间信息，从而减少了信息瓶颈效应。

3.3 注意力机制与推理步骤的交互

Transformer架构的核心是自注意力机制，它允许模型在处理每个token时动态地关注输入序列中的其他token。在CoT生成过程中，注意力机制扮演着关键角色：模型需要关注之前生成的推理步骤，以确保后续步骤的逻辑一致性。

具体而言，当模型生成第kkk个推理步骤zkz_kzk时，它需要通过注意力机制访问之前所有的推理步骤z1,...,zk−1z_1, ..., z_{k-1}z1,...,zk−1以及原始问题xxx。这种动态的注意力分配使得模型能够灵活地整合不同来源的信息，构建连贯的推理链。研究表明，在成功的CoT推理中，注意力权重往往呈现出有意义的模式：模型会重点关注与当前推理步骤最相关的先前步骤。
输出层
推理链生成
输入层
注意力
注意力
注意力
注意力
注意力
注意力
注意力
注意力
注意力
注意力
问题 x
推理步骤 z1
推理步骤 z2
推理步骤 z3
推理步骤 zn
答案 y

4 为什么逐步推理能提升准确率：理论分析

4.1 计算复杂度与表达能力视角

理解CoT为何有效的一个关键视角是计算复杂度理论。Merrill和Sabharwal在2023年的开创性研究中，从电路复杂度的角度分析了Transformer的表达能力。他们证明了一个重要结论：固定深度的Transformer（不使用CoT）只能表达TC⁰复杂度类中的函数，这是一个相对受限的计算类，无法高效解决许多需要多步推理的问题。

TC⁰复杂度类包含所有可以由常数深度、多项式规模、具有多项式阈值门的电路族计算的问题。虽然这个类包含了一些重要的计算问题，但它无法高效处理需要顺序计算的问题，如整数乘法、迭代算法等。这意味着，对于某些推理任务，标准Transformer架构在理论上可能无法在单次前向传播中完成正确的计算。

然而，当引入CoT机制后，情况发生了根本性变化。CoT允许模型生成多项式长度的中间推理步骤，这相当于扩展了模型的"有效计算深度"。Merrill和Sabharwal证明，具有多项式长度CoT的Transformer可以模拟任意多项式规模的电路，从而大大扩展了其表达能力。这一理论结果解释了为什么CoT能够显著提升模型在复杂推理任务上的表现：它从根本上改变了模型的计算能力。

表2总结了不同配置下Transformer的表达能力：

模型配置	表达能力	可解决问题类型	典型任务
固定深度Transformer	TC⁰	简单模式匹配	文本分类
对数深度Transformer	NC¹	简单逻辑运算	布尔函数
多项式长度CoT	P/poly	多项式时间可解问题	数学推理、符号操作
无限长度CoT	递归可枚举	任意可计算问题	理论极限

4.2 信息论视角的分析

从信息论角度分析CoT的有效性，可以为我们提供另一个深刻的理论视角。信息论的核心概念之一是互信息（Mutual Information），它衡量两个随机变量之间的相互依赖程度。在推理任务的语境下，我们可以考虑问题xxx、推理步骤zzz和答案yyy之间的互信息关系。

设I(X;Y)I(X; Y)I(X;Y)表示问题XXX与答案YYY之间的互信息，I(X;Z)I(X; Z)I(X;Z)表示问题与推理步骤之间的互信息，I(Z;Y)I(Z; Y)I(Z;Y)表示推理步骤与答案之间的互信息。根据信息论中的数据处理不等式（Data Processing Inequality），对于马尔可夫链X→Z→YX \rightarrow Z \rightarrow YX→Z→Y，有：

I(X;Y)≤I(X;Z)I(X; Y) \leq I(X; Z)I(X;Y)≤I(X;Z)
I(X;Y)≤I(Z;Y)I(X; Y) \leq I(Z; Y)I(X;Y)≤I(Z;Y)

这意味着，推理步骤ZZZ必须包含足够多关于问题XXX和答案YYY的信息，才能有效地连接两者。CoT的有效性可以从信息论角度解释为：通过生成中间推理步骤，模型能够逐步积累和传递信息，避免了直接从问题到答案的信息损失。

进一步地，我们可以从熵的角度理解CoT的作用。设H(Y∣X)H(Y|X)H(Y∣X)为给定问题条件下答案的条件熵，它衡量了预测答案的不确定性。CoT通过引入推理步骤，将这一条件熵分解为：

H(Y∣X)=H(Y∣Z,X)+I(Y;Z∣X)H(Y|X) = H(Y|Z, X) + I(Y; Z|X)H(Y∣X)=H(Y∣Z,X)+I(Y;Z∣X)

其中，H(Y∣Z,X)H(Y|Z, X)H(Y∣Z,X)表示给定推理步骤和问题条件下答案的条件熵，I(Y;Z∣X)I(Y; Z|X)I(Y;Z∣X)表示推理步骤与答案之间的条件互信息。理想情况下，推理步骤ZZZ应该最大化I(Y;Z∣X)I(Y; Z|X)I(Y;Z∣X)，即尽可能多地包含与答案相关的信息，从而最小化H(Y∣Z,X)H(Y|Z, X)H(Y∣Z,X)，降低预测的不确定性。

4.3 认知科学视角的解释

认知科学为理解CoT的有效性提供了丰富的理论资源。Daniel Kahneman在其著作《思考，快与慢》中提出的双系统理论（Dual-Process Theory）是一个重要的分析框架。根据这一理论，人类认知存在两个系统：System 1是快速、自动、直觉的思维模式，而System 2是缓慢、费力、深思熟虑的思维模式。

在标准提示方式下，大语言模型的行为类似于System 1：它快速生成答案，依赖模式匹配和直觉判断。这种方式在简单任务上效率很高，但在需要复杂推理的任务上容易出错。CoT提示则引导模型进入类似System 2的模式：它需要逐步思考，显式地构建推理链，这更接近于人类的深思熟虑过程。

工作记忆理论是另一个相关的认知科学框架。Baddeley的工作记忆模型指出，人类认知系统包含一个有限容量的工作记忆，用于临时存储和处理信息。当任务复杂度超过工作记忆容量时，人们会采用策略来减轻认知负荷，如将中间结果记录在纸上。CoT提示可以被视为模型的"外部工作记忆"：通过生成中间推理步骤，模型将计算负担分散到多个步骤中，避免了在单次前向传播中处理所有信息的压力。

此外，认知心理学中的"分解策略"（Decomposition Strategy）研究也为理解CoT提供了启示。研究表明，当面对复杂问题时，专家往往会将其分解为多个子问题，逐一解决后再整合结果。这种策略不仅降低了单个子问题的复杂度，还提供了错误检测和纠正的机会。CoT提示正是引导模型采用类似的分解策略，将复杂推理任务分解为可管理的子任务。

4.4 概率推理与不确定性降低

从概率推理的角度来看，CoT的有效性可以通过不确定性降低来解释。在贝叶斯推理框架下，推理过程可以被视为逐步更新信念的过程。设P(y∣x)P(y|x)P(y∣x)为给定问题条件下答案的后验概率，标准提示方式试图直接估计这一概率分布。然而，对于复杂问题，这一分布可能高度不确定，因为存在多种可能的推理路径。

CoT通过引入中间推理步骤，将推理过程分解为多个条件概率估计：

P(y∣x)=∫P(y∣z,x)P(z∣x)dzP(y|x) = \int P(y|z, x) P(z|x) dzP(y∣x)=∫P(y∣z,x)P(z∣x)dz

在每个推理步骤中，模型只需要估计相对简单的条件概率分布，这降低了单个步骤的不确定性。更重要的是，随着推理链的延伸，模型对问题的理解逐步深化，不确定性逐步降低。这类似于贝叶斯推理中的序贯更新过程：每一步推理都提供了新的信息，用于更新对最终答案的信念。

从决策理论的角度来看，CoT可以被视为一种"信息获取策略"（Information Acquisition Strategy）。在面临不确定性决策时，理性的决策者会选择先获取信息以降低不确定性，然后再做出决策。CoT提示引导模型采用类似的策略：先生成推理步骤以"获取信息"，然后基于这些信息给出最终答案。这种策略虽然增加了计算成本，但显著提高了决策质量。
CoT提示 (System 2)
问题输入
生成推理步骤1
不确定性降低
生成推理步骤2
不确定性进一步降低
生成最终答案
低不确定性输出
标准提示 (System 1)
问题输入
直接生成答案
高不确定性输出

5 Chain-of-Thought的主要变体与改进方法

5.1 Zero-shot CoT与Few-shot CoT

Chain-of-Thought Prompting的两种基本形式------Zero-shot CoT和Few-shot CoT------各有其特点和适用场景。Zero-shot CoT由Kojima等人在2022年提出，其核心发现是：只需在问题后添加简单的触发短语"Let's think step by step"，即可激活大语言模型的推理能力。这一发现具有重要的实践意义：它表明，经过大规模预训练的语言模型已经内在具备了推理能力，只是需要适当的提示来激活。

Zero-shot CoT的优势在于其简洁性和通用性。用户无需设计复杂的示例，只需添加一个触发短语即可应用于各种推理任务。研究表明，这一简单的触发短语在数学推理、常识推理、符号推理等多种任务上都取得了显著效果。然而，Zero-shot CoT的效果高度依赖于模型规模：只有足够大的模型（通常>100B参数）才能可靠地响应这一触发短语。

Few-shot CoT则采用不同的策略：通过在提示中提供若干带有完整推理链的示例，引导模型学习如何生成推理步骤。Wei等人在原始CoT论文中采用了这一方法，为每类任务设计了8个高质量示例。Few-shot CoT的优势在于其可控性和稳定性：通过精心设计示例，可以引导模型采用特定的推理风格和格式。然而，这种方法需要人工设计示例，且示例质量对最终效果有显著影响。

表3对比了Zero-shot CoT和Few-shot CoT的特点：

特性	Zero-shot CoT	Few-shot CoT
示例需求	无需示例	需要3-8个示例
实现复杂度	低	中等
效果稳定性	依赖模型规模	相对稳定
推理风格控制	有限	较高
适用模型规模	>100B参数	>10B参数
任务泛化能力	高	中等

5.2 Self-Consistency：多路径推理的集成

Self-Consistency是由Wang等人在2022年提出的一种改进方法，其核心思想是：通过采样多条推理路径，然后选择最一致的答案，来提高CoT推理的可靠性。这一方法基于一个关键观察：对于同一问题，模型可能生成多条不同的推理路径，但正确的推理路径更有可能收敛到相同的答案。

Self-Consistency的工作流程包括三个步骤：首先，使用较高的温度参数采样多条推理路径；然后，从每条路径中提取最终答案；最后，通过多数投票选择最一致的答案。这种方法可以被视为一种"推理集成"（Reasoning Ensemble），通过聚合多条推理路径的结果来降低错误率。

从概率论角度来看，Self-Consistency的有效性可以通过大数定律来解释。假设每条推理路径独立地以概率ppp给出正确答案，则nnn条推理路径中至少有一条正确的概率为1−(1−p)n1-(1-p)^n1−(1−p)n。当p>0.5p > 0.5p>0.5时，多数投票可以进一步提高正确率。更重要的是，Self-Consistency能够有效处理推理路径中的随机错误：即使某些路径在中间步骤出现错误，只要多数路径正确，最终答案仍然可能是正确的。

Self-Consistency的一个重要变体是"复杂度一致性"（Complexity-based Consistency），它优先选择推理步骤较多的路径的答案。这一策略基于一个经验观察：更长的推理链往往意味着更详细的推理过程，可能更可靠。然而，这一策略并非总是有效，因为过长的推理链也可能引入更多错误机会。
问题输入
推理路径1
推理路径2
推理路径3
推理路径N
答案A
答案A
答案B
答案A
多数投票
最终答案: A

5.3 Tree of Thoughts：结构化推理探索

Tree of Thoughts（ToT）是由Yao等人在2023年提出的一种扩展方法，它将CoT的线性推理链扩展为树状结构，允许模型探索多条推理路径并进行回溯。ToT的核心思想是：对于复杂问题，最优的推理路径可能不是线性的，而是需要探索、评估和选择。

ToT框架包含三个关键组件：思维生成（Thought Generation）、状态评估（State Evaluation）和搜索算法（Search Algorithm）。思维生成负责在当前状态下生成可能的下一步推理；状态评估负责评估当前推理状态的质量；搜索算法（如广度优先搜索或深度优先搜索）负责在思维树中导航。这种结构化的推理方式使得模型能够系统地探索推理空间，避免陷入局部最优。

ToT的一个典型应用是数学问题求解。对于复杂的应用题，模型可能需要在多个可能的解题方向中选择，或者在中途发现某条路径不可行时回溯。ToT通过显式地构建推理树，使得这种探索和回溯成为可能。实验表明，ToT在需要非平凡规划的任务上显著优于标准CoT。

从算法复杂度角度来看，ToT的计算成本明显高于标准CoT，因为它需要生成和评估多个推理分支。然而，对于高价值任务，这种额外的计算成本可能是值得的。研究者们也提出了多种优化策略，如剪枝、束搜索等，以在效果和效率之间取得平衡。

5.4 Least-to-Most Prompting：问题分解策略

Least-to-Most Prompting（LtM）是由Zhou等人在2022年提出的一种问题分解策略，其核心思想是将复杂问题分解为一系列简单的子问题，然后按照从简单到复杂的顺序逐一解决。与标准CoT不同，LtM显式地区分了问题分解和问题解决两个阶段。

LtM的工作流程包括两个阶段：在分解阶段，模型首先分析问题结构，识别出需要解决的子问题；在解决阶段，模型按照依赖关系依次解决每个子问题，并将前序子问题的答案作为后续子问题的上下文。这种方法特别适合需要多步分解的复杂任务，如长文本理解、复杂算术问题等。

LtM的一个重要优势是其可扩展性。对于需要任意深度分解的问题，LtM可以递归地应用分解策略，直到每个子问题都足够简单。这种能力使得LtM在处理"组合泛化"（Compositional Generalization）问题时表现出色------模型可以将已学到的简单问题的解决方法组合起来，解决未见过的复杂问题。

5.5 Program-Aided Language Models：神经符号融合

Program-Aided Language Models（PAL）是由Gao等人在2022年提出的一种神经符号融合方法，其核心思想是利用大语言模型生成程序代码来解决推理问题，然后通过程序执行器获得精确的计算结果。这种方法结合了神经网络的语言理解能力和符号系统的精确计算能力。

PAL的工作原理是：首先，模型理解自然语言描述的问题，并生成相应的程序代码（如Python代码）；然后，程序执行器运行代码，获得计算结果；最后，模型将计算结果整合到最终答案中。这种方法特别适合需要精确计算的任务，如数学应用题、符号推理等。由于程序执行是确定性的，PAL可以有效避免神经网络在数值计算上的不精确性。

PAL代表了一类更广泛的方法------神经符号融合（Neuro-Symbolic Integration）。这类方法试图结合神经网络和符号系统的优势：神经网络擅长处理模糊、不确定的自然语言输入，而符号系统擅长进行精确、可验证的计算。CoT可以被视为一种"软"神经符号融合：模型生成自然语言形式的推理步骤，这些步骤虽然不如程序代码精确，但仍然提供了推理过程的显式表示。
纯神经方法
直接生成
自然语言问题
大语言模型
答案

可能不精确
神经符号融合方法
生成
精确计算
自然语言问题
大语言模型
程序代码
程序执行器
计算结果
最终答案

6 实验评估与基准测试

6.1 数学推理基准

数学推理是评估CoT能力的核心领域之一，其中GSM8K（Grade School Math 8K）是最具代表性的基准数据集。GSM8K由Cobbe等人在2021年发布，包含约8500道小学数学应用题，需要多步推理才能解决。这些问题涵盖了算术运算、分数、比例、几何等多种数学概念，是测试模型推理能力的理想平台。

Wei等人在原始CoT论文中报告了令人瞩目的结果：使用CoT提示，PaLM 540B模型在GSM8K上的准确率从标准提示的17.9%提升到56.9%，提升幅度超过三倍。更重要的是，这一结果超过了当时的最优方法（55%），而这些方法通常需要针对特定任务进行微调。这一发现表明，CoT提示可以在不进行任务特定训练的情况下，显著提升模型的推理能力。

后续研究进一步验证了CoT在数学推理上的有效性。GPT-4在GSM8K上达到了约92%的准确率，接近人类专家水平。然而，研究者也发现了一些有趣的失败模式：模型有时会在简单的算术运算上出错，或者在理解问题意图时产生偏差。这些发现提示我们，CoT虽然强大，但并非万能。

另一个重要的数学推理基准是MATH数据集，由Hendrycks等人发布，包含更高级的数学竞赛题目。与GSM8K相比，MATH问题需要更深层次的数学知识和更复杂的推理能力。CoT在MATH上的表现相对较弱，这表明当前的推理能力仍有提升空间。

6.2 常识与符号推理基准

除了数学推理，CoT在常识推理和符号推理任务上也展现出显著优势。BIG-Bench Hard（BBH）是一个综合性的推理基准，包含23个具有挑战性的任务，涵盖逻辑推理、常识推理、符号操作等多个领域。Suzgun等人在2022年的研究中发现，使用CoT提示，PaLM模型在10个BBH任务上超越了人类评估者的平均表现。

常识推理任务测试模型对日常知识的理解和应用能力。例如，"Date Understanding"任务要求模型根据给定的信息推断日期，"Tracking Shuffled Objects"任务要求模型追踪多个对象的移动轨迹。这些任务虽然不需要专业知识，但需要多步推理和上下文理解。CoT在这些任务上的成功表明，它不仅适用于形式化推理，也适用于需要常识知识的推理任务。

符号推理任务测试模型处理形式化符号系统的能力，如字母连接、数字序列推理等。这类任务对人类来说相对简单，但对语言模型来说具有挑战性，因为它们需要精确的符号操作而非模糊的模式匹配。CoT通过引导模型显式地进行符号操作，显著提升了在这类任务上的表现。

6.3 消融研究与关键因素分析

为了深入理解CoT的有效性，研究者进行了大量的消融研究（Ablation Studies）。这些研究试图回答一个核心问题：CoT的哪些因素对其效果最为关键？

Wei等人在原始论文中测试了多种变体：仅提供方程式而非完整推理步骤、在推理步骤后提供答案、使用无效的推理步骤等。研究发现，完整的推理步骤是关键因素：仅提供方程式效果较差，而无效的推理步骤甚至可能误导模型。这些结果表明，CoT的有效性不仅来自于"更多token"的计算，而是真正依赖于推理步骤的逻辑质量。

另一个重要的消融研究关注示例的多样性。研究发现，使用多样化的示例（涵盖不同类型的问题和推理模式）比使用相似示例效果更好。这一发现与机器学习中的一般原则一致：训练数据的多样性有助于模型的泛化能力。

模型规模的影响也是一个关键发现。研究表明，CoT的效果与模型规模呈正相关：更大的模型从CoT中获益更多。对于小规模模型（<10B参数），CoT甚至可能产生负面影响，因为小模型可能无法生成高质量的推理链。这一发现与涌现能力的概念相呼应：CoT推理能力似乎是一种涌现能力，需要足够的模型规模才能显现。
效果影响
消融研究发现
关键
重要
决定性
核心
推理步骤完整性
完整步骤效果最佳
示例多样性
多样化示例提升泛化
模型规模
大规模模型获益更多
推理质量
逻辑质量决定效果
准确率提升

7 局限性与挑战

7.1 推理忠实性问题

Chain-of-Thought Prompting的一个重要局限性是推理忠实性（Faithfulness）问题。Turpin等人在2023年的论文"Language Models Don't Always Say What They Think"中揭示了一个令人担忧的现象：模型生成的推理步骤可能并不反映其真实的推理过程。换言之，模型可能"编造"推理步骤来合理化其答案，而非真正基于这些步骤得出答案。

研究者通过一系列实验验证了这一现象。在一个实验中，他们在提示中添加了偏见信息（如总是倾向于选择某个特定答案），然后观察模型的推理步骤。结果发现，模型往往会生成支持偏见答案的推理步骤，即使这些步骤在逻辑上是站不住脚的。这表明，模型的推理步骤可能是事后构建的"合理化解释"，而非真正的推理过程。

推理忠实性问题对CoT的实际应用提出了挑战。如果模型的推理步骤不可信，那么我们如何能够依赖这些步骤来验证答案的正确性？这一问题在安全关键应用中尤为重要，如医疗诊断、法律分析等。研究者提出了多种方法来提高推理忠实性，如结构化推理、验证机制等，但这一问题尚未得到根本解决。

7.2 错误传播与累积

CoT的另一个重要挑战是错误传播（Error Propagation）问题。由于CoT采用链式推理结构，每个推理步骤都依赖于前序步骤的结果。如果某个中间步骤出现错误，这一错误可能传播到后续所有步骤，导致最终答案错误。这种"级联失败"现象在长推理链中尤为常见。

错误传播问题的根源在于CoT的单向性：模型通常无法回溯修正之前的错误。虽然Tree of Thoughts等方法试图通过探索多条路径来缓解这一问题，但计算成本显著增加。另一个解决思路是引入验证机制：在关键推理步骤后，让模型检查步骤的正确性。然而，验证本身也可能出错，形成新的错误来源。

从认知科学角度来看，错误传播问题类似于人类推理中的"确认偏误"（Confirmation Bias）：一旦我们形成某种信念，后续的推理往往会倾向于支持这一信念，即使存在矛盾证据。CoT模型似乎也表现出类似的倾向：一旦在某个步骤做出错误判断，后续步骤往往会"合理化"这一错误，而非纠正它。

7.3 计算成本与效率考量

CoT的显著效果伴随着计算成本的增加。生成完整的推理链需要更多的token，这意味着更多的计算时间和资源消耗。对于需要处理大量请求的应用场景，这一成本增加可能是显著的。研究表明，CoT推理的token数量通常是标准提示的3-10倍，这直接转化为计算成本的相应增加。

计算成本问题在实时应用中尤为突出。例如，在对话系统中，用户可能期望快速响应，而CoT推理可能引入不可接受的延迟。研究者提出了多种优化策略，如自适应推理长度（根据问题复杂度调整推理步骤数量）、推理缓存（存储和复用常见推理模式）等。然而，这些优化策略可能影响推理质量，需要在效率和效果之间权衡。

另一个效率相关的问题是推理冗余。研究发现，模型的推理链中往往包含冗余或不必要的步骤。这些步骤虽然不直接影响答案正确性，但增加了计算成本。如何识别和消除这些冗余步骤，同时保持推理的完整性，是一个值得研究的方向。

7.4 任务适用性限制

CoT并非对所有任务都有效。研究发现，对于某些任务类型，CoT可能不会带来显著提升，甚至可能产生负面影响。这些任务包括：简单模式匹配任务（如文本分类）、需要直觉判断的任务（如情感分析）、以及需要大量领域知识的任务（如专业领域问答）。

一个有趣的发现是，CoT可能在某些情况下"过度思考"：对于简单问题，强制模型生成推理步骤可能引入不必要的复杂性，反而降低准确率。这类似于人类在简单问题上过度分析可能导致错误。因此，判断何时使用CoT、何时使用标准提示，是一个重要的实践问题。

CoT在跨语言、跨文化任务上的表现也存在挑战。大多数CoT研究使用英语数据集，而推理模式可能因语言和文化背景而异。例如，不同语言的数学表达方式不同，不同文化背景下的常识知识也有差异。如何使CoT适应多样化的语言和文化环境，是一个开放的研究问题。
潜在解决方案
CoT局限性
推理忠实性问题
错误传播与累积
计算成本增加
任务适用性限制
结构化推理框架
验证与回溯机制
自适应推理长度
任务感知提示选择

8 总结与展望

Chain-of-Thought Prompting作为大语言模型推理能力研究的重要突破，为我们理解和提升模型的推理能力提供了新的视角和方法。通过引导模型生成中间推理步骤，CoT将复杂问题分解为可管理的子问题，显著提升了模型在数学推理、常识推理、符号推理等任务上的表现。这一技术的成功不仅具有实践价值，更具有深远的理论意义：它揭示了大规模语言模型内在的推理潜力，以及通过适当的提示方法激活这种潜力的可能性。

从理论角度来看，CoT的有效性可以从多个维度来理解。计算复杂度理论告诉我们，CoT扩展了Transformer的表达能力，使其能够处理更复杂的计算任务。信息论视角揭示了CoT如何通过逐步积累和传递信息来降低推理的不确定性。认知科学框架则将CoT与人类的System 2思维联系起来，提供了理解其工作机制的认知基础。这些理论视角相互补充，共同构建了理解CoT的完整图景。

然而，CoT也面临着重要的挑战和局限性。推理忠实性问题提醒我们，模型的推理步骤可能并不总是反映其真实的推理过程。错误传播问题揭示了链式推理的脆弱性。计算成本的增加限制了CoT在某些应用场景中的实用性。任务适用性的限制则提醒我们，CoT并非万能的解决方案。这些挑战为未来的研究指明了方向。

展望未来，CoT研究有几个值得关注的发展方向。第一，推理忠实性的提升：如何确保模型的推理步骤真实反映其推理过程，是一个关键的研究问题。第二，推理效率的优化：如何在保持推理质量的同时降低计算成本，是实现CoT大规模应用的关键。第三，推理能力的进一步增强：结合外部知识库、程序执行器等工具，可能进一步提升模型的推理能力。第四，跨模态推理：将CoT扩展到图像、视频等多模态场景，是一个充满潜力的研究方向。

Chain-of-Thought Prompting的出现，标志着大语言模型研究从"能力扩展"向"能力激活"的范式转变。它告诉我们，大规模语言模型可能已经具备了强大的推理能力，关键在于如何通过适当的方法来激活和引导这种能力。这一洞见不仅对提示工程具有指导意义，更对模型架构设计、训练方法优化等方面具有启发价值。随着研究的深入，我们有理由期待，大语言模型的推理能力将不断提升，为人工智能的发展开辟新的可能性。
2022年原始CoT论文 Wei等人提出Few-shot CoT Zero-shot CoT Kojima等人发现触发短语 Self-Consistency Wang等人提出多路径集成 2023年 Tree of Thoughts Yao等人扩展为树状推理表达能力分析 Merrill等人证明理论界限推理忠实性 Turpin等人揭示忠实性问题 2024年及以后信息论分析深入理解CoT机制效率优化自适应推理长度多模态扩展跨模态CoT推理 Chain-of-Thought研究发展历程

参考文献

$1$ Wei J, Wang X, Schuurmans D, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models $J$ . Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.

$2$ Kojima T, Gu S S, Reid M, et al. Large Language Models are Zero-Shot Reasoners $J$ . Advances in Neural Information Processing Systems, 2022, 35: 22199-22213.

$3$ Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models $C$ //International Conference on Learning Representations. 2023.

$4$ Yao S, Yu D, Zhao J, et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models $J$ . Advances in Neural Information Processing Systems, 2023, 36.

$5$ Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models $J$ . Transactions on Machine Learning Research, 2022.

$6$ Gao L, Madaan A, Zhou S, et al. PAL: Program-aided Language Models $C$ //International Conference on Machine Learning. 2023: 10764-10799.

$7$ Turpin M, Michael J, Perez E, et al. Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting $J$ . Advances in Neural Information Processing Systems, 2023, 36.

$8$ Zhang Z, Zhang A, Li M, et al. Automatic Chain of Thought Prompting in Large Language Models $C$ //International Conference on Learning Representations. 2023.

$9$ Zhou D, Schärli N, Hou L, et al. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models $C$ //International Conference on Learning Representations. 2023.

$10$ Merrill W, Sabharwal A. The Expressive Power of Transformers with Chain of Thought $C$ //International Conference on Learning Representations. 2024.