Chain-of-Thought真能提高大模型的推理能力吗？

用于提高大语言模型（LLM）的推理、规划、算术等能力的思维链（Chain-of-Thought、CoT）技术，真的能帮助LLM一步步地回答问题吗？美国亚利桑那州立大学的研究人员近期发表了一篇论文[1]，论文根据实验结果，对CoT能够通过一系列的提示、引导LLM进行推理的观点提出了质疑。

作者们在评估CoT的推理能力时，没有采用较流行的GSM8K、CommonSenseQA、StrategyQA等测试数据集，而主要针对国际规划竞赛（International Planning Competitions）所认可和使用的Blocksworld问题进行了试验，同时还试验了以下三类推理和算术问题：

翻硬币（Coin Flip）问题；
字母拼接（Letter Concatenation）问题；
多步算术（Multi-step Arithmetic）问题。

Blocksworld问题及实验结果

Blocksworld问题在规划问题的文献中使用较广。Blocksworld问题所要解决的是将一定数量的积木从开始时的布局，通过一步步的移动，转变成为目标布局。作者们在实验中采用了Blocksworld问题中的较为简单的一部分子问题，具体而言，就是将台面上的一定数量的积木，按照目标顺序（例如积木A在积木B之上）堆成一个立柱的问题。

实验时，作者们采用了不同详细程度的多种CoT提示语，包括简单的Zero-Shot CoT提示语(即在提示语中增加"Let's think step by step.")，以及几种更加详细具体的CoT提示语。所采用的LLM包括GPT-4、Claude-3-Opus和GPT-4-Turbo。

实验的主要结果是：

未采用CoT的LLM基本不具备简单的规划能力；
只有当CoT提示语中的示例很详细、并且与所求解的问题足够相似时，CoT才能起到明显的作用；
不论采用多么详细具体的CoT提示语，当积木的数量增多时，堆叠积木的成功率都急剧下降，这意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中，所传授的知识不具有通用性；
即使使用self-consistency（一种改进的CoT技术），得到的结果也类似、甚至更差。

翻硬币问题及实验结果

翻硬币问题，是告诉LLM一枚硬币最初正面朝上，"人员1"翻转了这枚硬币，"人员2"未翻转这枚硬币，.... ，"人员N"翻转了这枚硬币，然后提问LLM这枚硬币最终是否正面朝上。其中，"人员i"在提示语中被替换成不同的人名。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是：

当提示语中涉及的人数N不超过30时，采用CoT的回答准确率随着人数的增加而有所下降，但能保持在90%以上；相比之下，未采用CoT的LLM的回答平均准确率不到60%，接近于随机猜测的准确率（50%）；
当提示语中涉及的人数N超过30时，采用CoT的回答准确率降至90%以下。

论文指出，只有翻硬币问题能以某种迹象展示出CoT的综合能力；论文同时也指出翻硬币问题非常简单，不需要太多的推理能力。

字母拼接问题及实验结果

字母拼接问题，是提供给LLM一组英文单词，让LLM将每个单词的特定位置的字母拼接在一起，例如：对于"Craig Alice"，将每个单词的最后一个字母拼接在一起（答案是"ge"）。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是：当英文单词的数量增多时，采用CoT的回答正确率急剧下降，这意味着CoT传授给LLM的知识不能被延用到同类的、但是更大的问题中，所传授的知识不具有通用性。

多步算术问题及实验结果

多步算术问题，是让LLM简化算术表达式，例如：简化"3 / (9 - (5 + (1)))"（答案是"1"）。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是：当算术表达式的长度增加、计算所需的步骤增多时，采用CoT的计算正确率快速下降，意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中，所传授的知识不具有通用性。

结论

基于上述多个实验的结果，论文提出了以下的观点：

CoT不像宣传的那样，能让LLM学到通用的、解决新问题的能力，只能让LLM通过某种方式的模式匹配来达到有关能力的提升；
非常贴切、具体的CoT提示语只可能在足够窄的问题领域中起到作用。

参考文献

1\] [https://arxiv.org/abs/2405.04776](https://arxiv.org/abs/2405.04776 "https://arxiv.org/abs/2405.04776") 封面图：Suzy Hazelwood、Pexels