Chain-of-Thought真能提高大模型的推理能力吗?

用于提高大语言模型(LLM)的推理、规划、算术等能力的思维链(Chain-of-Thought、CoT)技术,真的能帮助LLM一步步地回答问题吗?美国亚利桑那州立大学的研究人员近期发表了一篇论文[1],论文根据实验结果,对CoT能够通过一系列的提示、引导LLM进行推理的观点提出了质疑。

作者们在评估CoT的推理能力时,没有采用较流行的GSM8K、CommonSenseQA、StrategyQA等测试数据集,而主要针对国际规划竞赛(International Planning Competitions)所认可和使用的Blocksworld问题进行了试验,同时还试验了以下三类推理和算术问题:

  • 翻硬币(Coin Flip)问题;
  • 字母拼接(Letter Concatenation)问题;
  • 多步算术(Multi-step Arithmetic)问题。

Blocksworld问题及实验结果

Blocksworld问题在规划问题的文献中使用较广。Blocksworld问题所要解决的是将一定数量的积木从开始时的布局,通过一步步的移动,转变成为目标布局。作者们在实验中采用了Blocksworld问题中的较为简单的一部分子问题,具体而言,就是将台面上的一定数量的积木,按照目标顺序(例如积木A在积木B之上)堆成一个立柱的问题。

实验时,作者们采用了不同详细程度的多种CoT提示语,包括简单的Zero-Shot CoT提示语(即在提示语中增加"Let's think step by step."),以及几种更加详细具体的CoT提示语。所采用的LLM包括GPT-4、Claude-3-Opus和GPT-4-Turbo。

实验的主要结果是:

  • 未采用CoT的LLM基本不具备简单的规划能力;
  • 只有当CoT提示语中的示例很详细、并且与所求解的问题足够相似时,CoT才能起到明显的作用;
  • 不论采用多么详细具体的CoT提示语,当积木的数量增多时,堆叠积木的成功率都急剧下降,这意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性;
  • 即使使用self-consistency(一种改进的CoT技术),得到的结果也类似、甚至更差。

翻硬币问题及实验结果

翻硬币问题,是告诉LLM一枚硬币最初正面朝上,"人员1"翻转了这枚硬币,"人员2"未翻转这枚硬币,.... ,"人员N"翻转了这枚硬币,然后提问LLM这枚硬币最终是否正面朝上。其中,"人员i"在提示语中被替换成不同的人名。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:

  • 当提示语中涉及的人数N不超过30时,采用CoT的回答准确率随着人数的增加而有所下降,但能保持在90%以上;相比之下,未采用CoT的LLM的回答平均准确率不到60%,接近于随机猜测的准确率(50%);
  • 当提示语中涉及的人数N超过30时,采用CoT的回答准确率降至90%以下。

论文指出,只有翻硬币问题能以某种迹象展示出CoT的综合能力;论文同时也指出翻硬币问题非常简单,不需要太多的推理能力。

字母拼接问题及实验结果

字母拼接问题,是提供给LLM一组英文单词,让LLM将每个单词的特定位置的字母拼接在一起,例如:对于"Craig Alice",将每个单词的最后一个字母拼接在一起(答案是"ge")。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:当英文单词的数量增多时,采用CoT的回答正确率急剧下降,这意味着CoT传授给LLM的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。

多步算术问题及实验结果

多步算术问题,是让LLM简化算术表达式,例如:简化"3 / (9 - (5 + (1)))"(答案是"1")。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:当算术表达式的长度增加、计算所需的步骤增多时,采用CoT的计算正确率快速下降,意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。

结论

基于上述多个实验的结果,论文提出了以下的观点:

  • CoT不像宣传的那样,能让LLM学到通用的、解决新问题的能力,只能让LLM通过某种方式的模式匹配来达到有关能力的提升;
  • 非常贴切、具体的CoT提示语只可能在足够窄的问题领域中起到作用。

参考文献

1\] [https://arxiv.org/abs/2405.04776](https://arxiv.org/abs/2405.04776 "https://arxiv.org/abs/2405.04776") 封面图:Suzy Hazelwood、Pexels

相关推荐
马丁聊GEO19 分钟前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker24 分钟前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.35 分钟前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑41 分钟前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金1 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移1 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower1 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方1 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT1 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造
流年似水~1 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程