论文出处: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构: Google Research, Brain Team
发表: 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv: 2201.11903v6 [cs.CL]
研究背景
大语言模型虽然在许多任务上表现出色,但在需要复杂推理的任务上仍然存在困难,特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对,无法有效激发模型的推理能力。
核心创新:思维链提示
什么是思维链提示?
思维链提示(Chain-of-Thought Prompting)是一种新的提示方法,通过在少样本示例中提供一系列中间推理步骤,教会大语言模型进行逐步推理。
传统提示 vs 思维链提示对比:
方法类型 | 输入格式 | 输出格式 | 示例 |
---|---|---|---|
传统提示 | 问题 → 答案 | 直接答案 | Q: Roger有5个网球,买了2罐,每罐3个,现在有多少? A: 答案是11 |
思维链提示 | 问题 → 推理过程 → 答案 | 逐步推理 + 答案 | Q: Roger有5个网球,买了2罐,每罐3个,现在有多少? A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11 |
思维链提示的四大优势
- 分解复杂问题:将多步问题拆解为中间步骤,为复杂推理分配更多计算资源
- 提供可解释性:展示模型推理过程,便于调试和理解
- 广泛适用性:适用于任何人类可以通过语言解决的推理任务
- 零额外训练:仅需要在提示中提供示例,无需模型微调
实验验证
算术推理实验
研究团队在五个数学应用题数据集上进行了测试,包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。
主要发现:
- 规模涌现性:思维链提示只在约100B参数以上的模型中显现效果
- 复杂问题效果更佳:越复杂的问题,性能提升越显著
- 超越微调模型:在某些任务上甚至超过了专门微调的模型
GSM8K数学应用题性能对比:
模型 | 标准提示 | 思维链提示 | 性能提升 |
---|---|---|---|
GPT-3 175B | 15.6% | 46.9% | +31.3% |
PaLM 540B | 17.9% | 56.9% | +39.0% |
Codex | 19.7% | 63.1% | +43.4% |
不同模型规模的表现(GSM8K):
模型系列 | 参数量 | 标准提示 | 思维链提示 | 提升幅度 |
---|---|---|---|---|
GPT-3 | 350M | 2.2% | 0.5% | -1.7% |
GPT-3 | 1.3B | 2.4% | 0.5% | -1.9% |
GPT-3 | 6.7B | 4.0% | 2.4% | -1.6% |
GPT-3 | 175B | 15.6% | 46.9% | +31.3% |
PaLM | 8B | 4.9% | 4.1% | -0.8% |
PaLM | 62B | 9.6% | 29.9% | +20.3% |
PaLM | 540B | 17.9% | 56.9% | +39.0% |
常识推理实验
在五个常识推理数据集上的测试显示,思维链提示同样有效。
常识推理任务性能(PaLM 540B):
任务 | 标准提示 | 思维链提示 | 性能提升 |
---|---|---|---|
CSQA | 78.1% | 79.9% | +1.8% |
StrategyQA | 68.6% | 77.8% | +9.2% |
Date Understanding | 49.0% | 65.3% | +16.3% |
Sports Understanding | 80.5% | 95.4% | +14.9% |
SayCan | 80.8% | 91.7% | +10.9% |
符号推理实验
通过设计的两个符号推理任务验证了思维链提示的泛化能力。
符号推理任务结果(PaLM 540B):
任务 | 测试类型 | 标准提示 | 思维链提示 | 性能提升 |
---|---|---|---|---|
末字母连接 | 域内(2词) | 7.6% | 99.4% | +91.8% |
末字母连接 | 域外(3词) | 0.2% | 94.8% | +94.6% |
末字母连接 | 域外(4词) | 0.0% | 63.0% | +63.0% |
硬币翻转 | 域内(2次) | 98.1% | 100.0% | +1.9% |
硬币翻转 | 域外(3次) | 49.3% | 98.6% | +49.3% |
硬币翻转 | 域外(4次) | 54.8% | 90.2% | +35.4% |
消融实验分析
为了验证思维链的有效性,研究团队进行了三组对照实验:
消融实验结果(LaMDA 137B在GSM8K上):
提示方法 | 性能 | 说明 |
---|---|---|
标准提示 | 6.5% | 基线 |
仅方程式 | 5.4% | 只输出数学方程式 |
仅可变计算 | 6.4% | 只输出等长度的点序列 |
答案后推理 | 6.1% | 推理过程放在答案后 |
思维链提示 | 14.3% | 完整的逐步推理 |
结果表明,思维链的成功不仅仅因为增加了计算量或方程式,而是因为逐步的自然语言推理过程。
稳健性验证
不同标注者的稳健性
研究团队让三个不同的标注者编写思维链提示,验证方法的稳健性。
不同标注者结果(LaMDA 137B):
数据集 | 标注者A | 标注者B | 标注者C | 标准提示基线 |
---|---|---|---|---|
GSM8K | 14.3% | 15.5% | 17.6% | 6.5% |
SVAMP | 36.7% | 35.2% | 37.5% | 29.5% |
ASDiv | 46.6% | 46.5% | 48.7% | 40.1% |
MAWPS | 57.9% | 58.2% | 60.1% | 43.2% |
不同示例数量的影响
示例数量对性能的影响(LaMDA 137B, GSM8K):
示例数量 | 标准提示 | 思维链提示 | 性能差距 |
---|---|---|---|
1个 | 4.2% | 8.9% | +4.7% |
2个 | 5.1% | 11.2% | +6.1% |
4个 | 5.8% | 12.8% | +7.0% |
6个 | 6.2% | 13.5% | +7.3% |
8个 | 6.5% | 14.3% | +7.8% |
错误分析
研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析:
正确答案的推理质量(50个样本):
- 完全正确:48个(96%)
- 巧合正确:1个(2%)
- 轻微瑕疵但逻辑正确:1个(2%)
错误答案的错误类型(50个样本):
错误类型 | 占比 | 说明 |
---|---|---|
计算错误 | 8% | 逻辑正确但计算出错 |
符号映射错误 | 16% | 数字符号使用错误 |
缺少一步 | 22% | 推理链缺少关键步骤 |
语义理解错误 | 54% | 对问题理解有误 |
应用场景与限制
最佳应用场景
思维链提示在以下三个条件同时满足时效果最佳:
- 任务具有挑战性且需要多步推理
- 使用大规模语言模型(100B+参数)
- 标准提示的性能曲线相对平坦
方法限制
- 模型规模依赖:只在大模型中有效,服务成本高
- 推理正确性无保证:可能产生看似合理但错误的推理链
- 标注成本:大规模应用需要大量高质量示例
- "真实推理"存疑:模型是否真正在推理仍是开放问题
技术影响与未来展望
对AI领域的影响
思维链提示的成功表明:
- 标准提示只是下界:大语言模型的能力被严重低估
- 涌现能力的重要性:某些能力只在特定规模下才显现
- 推理能力可激发:不需要专门训练就能获得推理能力
未来研究方向
- 自动化思维链生成:减少人工标注成本
- 小模型推理能力:在更小模型中实现类似效果
- 推理正确性保证:提高推理链的准确性和可靠性
- 多模态推理:扩展到图像、视频等其他模态
结论
思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程,就能显著提升模型在复杂推理任务上的表现,这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进,我们有理由期待更强大、更可靠的AI推理系统。
这项研究不仅在技术上具有重要意义,更在于它揭示了大语言模型潜在能力的冰山一角,为未来的AI研究指明了新的方向。