为什么提升模型尺度可以提升模型的CoT能力

核心发现 ：

CoT能力在模型参数量达到临界规模（约100亿参数）后才显著显现，小模型（<10B）使用CoT反而会降低性能。这与模型其他能力的线性增长规律不同，呈现典型的涌现特性。

技术解释：

量变到质变 ：当参数规模超过阈值后，模型突然获得：
- 多步推理的工作记忆（保持中间状态能力）
- 语义符号的精确映射（如将"翻倍"正确对应到"×2"）
对比数据 ：

模型规模 CoT准确率（GSM8K）标准Prompt准确率

1B 12% 15%

10B 18% 20%

100B 47% 23%

540B 56% 25%

启示：

模型规模是CoT的必要非充分条件，需配合适当的提示工程（如Few-shot示例）。

研究者将PaLM-62B的错误归为三类，反映不同规模模型的能力瓶颈：

典型case：

text 复制代码

问题："若A比B多3倍，B有5个，求A"  
错误CoT：A = B + 3 = 8（混淆"多3倍"与"多3个"）

规模改善机制 ：

大模型通过更精细的语义消歧能力（如区分"times" vs "more than"）减少此类错误。

典型case：

text 复制代码

问题："5苹果+3梨-2苹果=？"  
错误CoT：5 + 3 = 8 → 输出8（缺失"-2苹果"步骤）

规模改善机制 ：

大模型具有更强的程序性记忆，能完整执行多步运算。

包括幻觉、重复输出等，与解码策略（如beam search）相关性更高。

PaLM从62B→540B的升级带来：

深层原因假设：

需注意的混淆变量：

反例：

某些<10B的模型通过专项微调也能获得CoT能力（如Flan-T5），但泛化性较差。

图下就是通过扩大模型尺度，从而发现可以弥补小尺度模型的逻辑错误

模型规模工作记忆容量语义消歧能力错误恢复能力 CoT有效性复杂任务性能突破

这项研究揭示了LLM能力增长的非线性规律，为后续模型开发提供了重要方向：