思维链提示:激发大语言模型推理能力的突破性方法

论文出处: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构: Google Research, Brain Team
发表: 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv: 2201.11903v6 [cs.CL]

研究背景

大语言模型虽然在许多任务上表现出色,但在需要复杂推理的任务上仍然存在困难,特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对,无法有效激发模型的推理能力。

核心创新:思维链提示

什么是思维链提示?

思维链提示(Chain-of-Thought Prompting)是一种新的提示方法,通过在少样本示例中提供一系列中间推理步骤,教会大语言模型进行逐步推理。

传统提示 vs 思维链提示对比:

方法类型 输入格式 输出格式 示例
传统提示 问题 → 答案 直接答案 Q: Roger有5个网球,买了2罐,每罐3个,现在有多少? A: 答案是11
思维链提示 问题 → 推理过程 → 答案 逐步推理 + 答案 Q: Roger有5个网球,买了2罐,每罐3个,现在有多少? A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11

思维链提示的四大优势

  1. 分解复杂问题:将多步问题拆解为中间步骤,为复杂推理分配更多计算资源
  2. 提供可解释性:展示模型推理过程,便于调试和理解
  3. 广泛适用性:适用于任何人类可以通过语言解决的推理任务
  4. 零额外训练:仅需要在提示中提供示例,无需模型微调

实验验证

算术推理实验

研究团队在五个数学应用题数据集上进行了测试,包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。

主要发现:

  • 规模涌现性:思维链提示只在约100B参数以上的模型中显现效果
  • 复杂问题效果更佳:越复杂的问题,性能提升越显著
  • 超越微调模型:在某些任务上甚至超过了专门微调的模型

GSM8K数学应用题性能对比:

模型 标准提示 思维链提示 性能提升
GPT-3 175B 15.6% 46.9% +31.3%
PaLM 540B 17.9% 56.9% +39.0%
Codex 19.7% 63.1% +43.4%

不同模型规模的表现(GSM8K):

模型系列 参数量 标准提示 思维链提示 提升幅度
GPT-3 350M 2.2% 0.5% -1.7%
GPT-3 1.3B 2.4% 0.5% -1.9%
GPT-3 6.7B 4.0% 2.4% -1.6%
GPT-3 175B 15.6% 46.9% +31.3%
PaLM 8B 4.9% 4.1% -0.8%
PaLM 62B 9.6% 29.9% +20.3%
PaLM 540B 17.9% 56.9% +39.0%

常识推理实验

在五个常识推理数据集上的测试显示,思维链提示同样有效。

常识推理任务性能(PaLM 540B):

任务 标准提示 思维链提示 性能提升
CSQA 78.1% 79.9% +1.8%
StrategyQA 68.6% 77.8% +9.2%
Date Understanding 49.0% 65.3% +16.3%
Sports Understanding 80.5% 95.4% +14.9%
SayCan 80.8% 91.7% +10.9%

符号推理实验

通过设计的两个符号推理任务验证了思维链提示的泛化能力。

符号推理任务结果(PaLM 540B):

任务 测试类型 标准提示 思维链提示 性能提升
末字母连接 域内(2词) 7.6% 99.4% +91.8%
末字母连接 域外(3词) 0.2% 94.8% +94.6%
末字母连接 域外(4词) 0.0% 63.0% +63.0%
硬币翻转 域内(2次) 98.1% 100.0% +1.9%
硬币翻转 域外(3次) 49.3% 98.6% +49.3%
硬币翻转 域外(4次) 54.8% 90.2% +35.4%

消融实验分析

为了验证思维链的有效性,研究团队进行了三组对照实验:

消融实验结果(LaMDA 137B在GSM8K上):

提示方法 性能 说明
标准提示 6.5% 基线
仅方程式 5.4% 只输出数学方程式
仅可变计算 6.4% 只输出等长度的点序列
答案后推理 6.1% 推理过程放在答案后
思维链提示 14.3% 完整的逐步推理

结果表明,思维链的成功不仅仅因为增加了计算量或方程式,而是因为逐步的自然语言推理过程。

稳健性验证

不同标注者的稳健性

研究团队让三个不同的标注者编写思维链提示,验证方法的稳健性。

不同标注者结果(LaMDA 137B):

数据集 标注者A 标注者B 标注者C 标准提示基线
GSM8K 14.3% 15.5% 17.6% 6.5%
SVAMP 36.7% 35.2% 37.5% 29.5%
ASDiv 46.6% 46.5% 48.7% 40.1%
MAWPS 57.9% 58.2% 60.1% 43.2%

不同示例数量的影响

示例数量对性能的影响(LaMDA 137B, GSM8K):

示例数量 标准提示 思维链提示 性能差距
1个 4.2% 8.9% +4.7%
2个 5.1% 11.2% +6.1%
4个 5.8% 12.8% +7.0%
6个 6.2% 13.5% +7.3%
8个 6.5% 14.3% +7.8%

错误分析

研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析:

正确答案的推理质量(50个样本):

  • 完全正确:48个(96%)
  • 巧合正确:1个(2%)
  • 轻微瑕疵但逻辑正确:1个(2%)

错误答案的错误类型(50个样本):

错误类型 占比 说明
计算错误 8% 逻辑正确但计算出错
符号映射错误 16% 数字符号使用错误
缺少一步 22% 推理链缺少关键步骤
语义理解错误 54% 对问题理解有误

应用场景与限制

最佳应用场景

思维链提示在以下三个条件同时满足时效果最佳:

  1. 任务具有挑战性且需要多步推理
  2. 使用大规模语言模型(100B+参数)
  3. 标准提示的性能曲线相对平坦

方法限制

  1. 模型规模依赖:只在大模型中有效,服务成本高
  2. 推理正确性无保证:可能产生看似合理但错误的推理链
  3. 标注成本:大规模应用需要大量高质量示例
  4. "真实推理"存疑:模型是否真正在推理仍是开放问题

技术影响与未来展望

对AI领域的影响

思维链提示的成功表明:

  • 标准提示只是下界:大语言模型的能力被严重低估
  • 涌现能力的重要性:某些能力只在特定规模下才显现
  • 推理能力可激发:不需要专门训练就能获得推理能力

未来研究方向

  1. 自动化思维链生成:减少人工标注成本
  2. 小模型推理能力:在更小模型中实现类似效果
  3. 推理正确性保证:提高推理链的准确性和可靠性
  4. 多模态推理:扩展到图像、视频等其他模态

结论

思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程,就能显著提升模型在复杂推理任务上的表现,这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进,我们有理由期待更强大、更可靠的AI推理系统。

这项研究不仅在技术上具有重要意义,更在于它揭示了大语言模型潜在能力的冰山一角,为未来的AI研究指明了新的方向。

相关推荐
嘻嘻哈哈OK啦2 小时前
day40打卡
人工智能·深度学习·机器学习
yzx9910136 小时前
Python开发系统项目
人工智能·python·深度学习·django
高效匠人6 小时前
人工智能-Chain of Thought Prompting(思维链提示,简称CoT)
人工智能
要努力啊啊啊7 小时前
GaLore:基于梯度低秩投影的大语言模型高效训练方法详解一
论文阅读·人工智能·语言模型·自然语言处理
先做个垃圾出来………7 小时前
《机器学习系统设计》
人工智能·机器学习
s153358 小时前
6.RV1126-OPENCV 形态学基础膨胀及腐蚀
人工智能·opencv·计算机视觉
jndingxin8 小时前
OpenCV CUDA模块特征检测------角点检测的接口createMinEigenValCorner()
人工智能·opencv·计算机视觉
Tianyanxiao8 小时前
宇树科技更名“股份有限公司”深度解析:机器人企业IPO前奏与资本化路径
人工智能
道可云8 小时前
道可云人工智能每日资讯|北京农业人工智能与机器人研究院揭牌
人工智能·机器人·ar·deepseek
艾醒(AiXing-w)9 小时前
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示
人工智能·语言模型·自然语言处理