思维链:计算长度换计算深度,获取多次的向前传播

思维链 :计算长度换计算深度,获取多次的向前传播

如果要对这个说法进行更严谨的学术辨析,可以把它修正为:"用推理长度的增加,来换取单次前向传播无法完成的、更深层次的'计算深度'。"

下面从计算图和信息瓶颈两个维度来拆解这句话:

"获取多次的前向传播":这是完全正确的

这是思维链最直观的体现。在不使用思维链时,模型是一次性生成答案的。我们假设这是一次从输入到输出的前向传播(虽然内部有很多层,但对用户来说是一次性生成)。

使用思维链时,模型的行为变成了:Token A(推理步骤1) -> 前向传播 -> Token B(推理步骤2) -> 前向传播 -> ... -> 最终答案。

  • 每一次新Token的生成,都是一次完整的前向传播(利用Transformer的KV缓存优化后,计算量会减少,但逻辑上仍是多次)。

  • 这就像人类做复杂数学题:我们不会盯着题目看一眼就写出答案,而是先写第一步推导(草稿),看看这一步的结果,再基于这个结果进行第二步推导。

"用计算长度换计算深度":需要稍微辨析一下

在深度学习术语里,"深度"通常指网络的层数(横向堆叠的Transformer块),而"长度"指序列的Token数。

  • 大模型的物理深度是固定的:模型一旦训练好,它的层数就定了。无论你问"1+1"还是问复杂的物理题,信息流过的层数是一样的。

  • 思维链创造的是"逻辑深度"或"算法深度":

    • 不用的思维链(直接预测):模型必须在固定层数的神经网络内,完成"理解问题 -> 内部检索 -> 规划 -> 输出"的全过程。这对复杂逻辑任务来说,信息在固定层数里可能绕不过来,容易出错。这相当于让模型一步登天。

    • 用了思维链:模型把需要在固定层数里完成的复杂计算,拆解成了多个步骤,写在上下文中。这样,下一次前向传播时,它可以"看到"自己刚才写下的中间结果,并基于这个"外部记忆"继续计算。

所以更准确的描述是:

思维链通过增加序列长度(推理步数),将原本需要在神经网络固定深度内完成的复杂映射,分解为多个浅层映射的组合,从而突破了单次前向传播的计算瓶颈。

为什么"多次前向传播"如此重要?(核心机制)

这里涉及到一个关键概念:"算法规避"。

有研究(如Google的《Chain-of-Thought Reasoning Without Prompting》)表明,大模型在单次前向传播中,存在"懒惰"或"捷径"倾向,可能会跳过复杂的逻辑推导。

思维链通过强迫模型把中间计算过程写出来,达到了两个目的:

  1. 创建中间表征:每一步的输出,都成为下一步输入的一部分。这相当于给模型提供了一个外部工作存储器。原本模型必须在神经元的激活值里记住所有中间变量(这很容易遗忘或混淆),现在它把变量写在了看得见的文本里,大大减轻了记忆负担。

  2. 分解复杂任务:假设解决一个问题需要逻辑深度为5的推理。没有思维链时,模型试图通过一个固定深度的神经网络去模拟这5步逻辑,这相当于做复杂的函数拟合。有了思维链,模型每次前向传播只做一步最简单的推理(逻辑深度为1),然后把结果喂给自己,做下一步。这大大降低了每一步的难度。

一个直观的类比

  • 直接回答(无思维链): 就像让你口算 1234 × 5678。你必须在大脑里(相当于固定的神经网络层)一次性完成所有的进位和乘法,这很容易出错。

  • 思维链: 就像给你纸和笔。你把 1234 × 50001234 × 600......分别写在纸上(增加长度)。你每次只看纸上的一个局部结果,做一次简单的加法(一次前向传播)。虽然你写的字(Token)变多了,花的时间变长了(推理长度增加),但你解决了大脑工作记忆不足的问题,最终算对的概率大大提升(逻辑深度实现)。

总结

思维链的精髓:

  1. 多次前向传播:模型确实通过自回归生成,实现了多次迭代计算。

  2. 长度换深度:虽然换的不是神经网络的物理层数,但确实换取了解决复杂问题所需的"逻辑步数"。这相当于让模型利用上下文内存(Context Memory)来弥补单次前向传播计算能力的不足。

相关推荐
AI资源库14 天前
Intern-S1-Pro模型深入解析
langchain·cot·ai agent·moe·lmdeploy·intern-s1-pro·open source llm
AndrewHZ22 天前
【AI黑话日日新】什么是隐式CoT?
人工智能·深度学习·算法·llm·cot·复杂推理
索木木1 个月前
强化学习与思维链
大模型·sft·强化学习·思维链
gentle coder2 个月前
一文入门ReAct Agent,附从零构建 ReAct Agent
ai·agent·思维链·智能体·react agent
AI生成未来2 个月前
北交&字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA
计算机视觉·aigc·多模态·思维链·视觉生成
juhanishen2 个月前
Agentic AI: Chain of Thoughts (COT) CrewAI 一步步解释,从 0 到 1
人工智能·chatgpt·cot·agentic ai·agenticai·chain of though
阿杰学AI2 个月前
AI核心知识63——大语言模型之Reasoning Model (简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·cot·推理模型·reasoning model
蓝海星梦2 个月前
Chain‑of‑Thought 推理链评估全解析:从参考方法到无参考指标
论文阅读·人工智能·自然语言处理·cot
阿杰学AI3 个月前
AI核心知识30——大语言模型之CoT(简洁且通俗易懂版)
人工智能·语言模型·自然语言处理·aigc·agi·cot·思维链