【系统学AI】25 论文导读 ①：两篇改变 AI 的开山之作——Attention Is All You Need & ReAct

本文是「AI 学习计划」系列第 27 篇，模块 07 论文导读第 1 篇。

选这两篇放一起读：Transformer 定义了"大模型怎么思考"，ReAct 定义了"大模型怎么行动"。一个是引擎，一个是方向盘。

论文 A：Attention Is All You Need（2017）

基本信息

项	内容
标题	Attention Is All You Need
作者	Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin（Google Brain + Google Research）
发表	NeurIPS 2017
引用	130,000+（截至 2026，AI 领域史上引用最高的论文之一）
链接	https://arxiv.org/abs/1706.03762

一句话总结

完全抛弃 RNN/CNN，仅用自注意力机制（Self-Attention）构建序列到序列模型，速度更快、效果更好。

这篇论文解决了什么问题？

2017 年之前，NLP 的主流架构是 RNN（LSTM/GRU）：

问题 1：无法并行------RNN 必须逐步处理序列，token 1 算完才能算 token 2，GPU 利用率极低
问题 2：长距离遗忘------序列太长时，前面的信息到后面就"忘了"（梯度消失）
问题 3：训练慢------因为无法并行，大规模训练代价极高

Transformer 的解法：用注意力机制一次性"看完"整个序列，每个 token 都能直接关注到任意远处的 token，且所有计算完全可并行。

核心架构拆解（5 个关键模块）

复制代码

输入 → [Embedding + 位置编码] → [Encoder ×6] → [Decoder ×6] → 输出

1. Self-Attention（自注意力）------论文核心

复制代码

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Q（Query）：我在找什么
K（Key）：我有什么标签
V（Value）：我的实际内容
√d_k：缩放因子，防止点积过大导致 softmax 梯度消失

直觉理解：每个词对其他所有词做一次"相关性投票"，投票结果决定这个词应该关注谁。

2. Multi-Head Attention（多头注意力）

不是做一次注意力，而是做 h=8 次（8 个头），每个头关注不同的语义维度：

头 1 可能关注语法关系
头 2 可能关注语义相似度
头 3 可能关注位置邻近性

最后把 8 个头的结果拼起来，过一个线性层。

3. 位置编码（Positional Encoding）

因为注意力机制本身不知道"顺序"（它是并行计算的），需要手动注入位置信息：

复制代码

PE(pos, 2i)   = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

为什么用三角函数？因为它能让模型学到"相对位置"（两个位置的编码差是固定模式）。

📌 2026 注 ：现代大模型已用 RoPE（旋转位置编码） 替代，支持更长上下文。但理解原始设计是基础。

4. Feed-Forward Network（FFN）

每个 Attention 层后面跟一个两层 MLP：

复制代码

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

有人把 FFN 比喻为"记忆库"------注意力层负责理解关系，FFN 负责存储知识。

5. 残差连接 + Layer Norm

每个子层都是：output = LayerNorm(x + SubLayer(x))

残差连接让梯度能直接流回底层（解决深层网络训练难题），LayerNorm 让训练更稳定。

为什么这篇论文改变了一切？

影响	具体表现
GPT 系列	只用 Decoder（自回归），GPT-1→GPT-5.5
BERT 系列	只用 Encoder（双向），BERT→RoBERTa→DeBERTa
T5/GLM	Encoder-Decoder 完整使用
Vision Transformer	把图像切成 patch 当 token 处理
扩散模型	Stable Diffusion 的 U-Net 里嵌入了 Cross-Attention

一句话总结影响：2017 年后 AI 领域几乎所有突破，都建立在 Transformer 之上。

读这篇论文的正确姿势

先看 Figure 1（架构图）------建立全局直觉
重点读 §3.2（Scaled Dot-Product Attention）------核心公式
理解 §3.2.2（Multi-Head）------为什么多个头比一个好
跳过 §5.4（训练细节）------除非你要复现
配合 Jay Alammar 的 Illustrated Transformer 一起看------可视化版

论文 B：ReAct --- Synergizing Reasoning and Acting in Language Models（2022）

基本信息

项	内容
标题	ReAct: Synergizing Reasoning and Acting in Language Models
作者	Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao（Princeton + Google Brain）
发表	ICLR 2023 (Spotlight)
引用	4,000+（Agent 领域引用最高的论文之一）
链接	https://arxiv.org/abs/2210.03629

一句话总结

让 LLM 在生成"推理过程"（Thought）的同时生成"行动"（Action），形成 Thought→Action→Observation 循环，显著提升复杂任务完成能力。

解决了什么问题？

2022 年之前，LLM 有两个流派：

Chain-of-Thought（CoT）：让模型"一步步想"，但只能推理，不能行动（不能搜索、不能计算）
Action-only：让模型直接调工具，但没有推理过程，经常做蠢事

ReAct 把两者合并：先想为什么要做（Thought），再做（Action），看到结果（Observation），再想下一步。

核心范式：Thought-Action-Observation 循环

复制代码

用户问题: "Apple Remote 能控制哪些程序，这些程序的原开发者是谁？"

Thought 1: 我需要先搜索 Apple Remote 能控制什么程序。
Action 1: Search["Apple Remote"]
Observation 1: Apple Remote 可以控制 Front Row 和 iTunes...

Thought 2: 我知道 Apple Remote 能控制 Front Row，我需要查 Front Row 的开发者。
Action 2: Search["Front Row software"]
Observation 2: Front Row 是 Apple 开发的...

Thought 3: 现在我还需要查 iTunes 的原开发者。
Action 3: Search["iTunes original developer"]
Observation 3: iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发...

Thought 4: 我现在有了所有信息。
Action 4: Finish["Front Row 和 iTunes。Front Row 由 Apple 开发，iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发。"]

关键实验结果

任务	CoT-only	Act-only	ReAct
HotpotQA（多跳问答）	29.4%	25.7%	34.2%
FEVER（事实验证）	56.3%	58.2%	64.1%
ALFWorld（交互游戏）	---	45%	71%
WebShop（网页购物）	---	62.4%	66.6%

为什么 ReAct 这么重要？

定义了 Agent 的基本范式：所有后续 Agent 框架（LangChain、AutoGPT、Claude）都是 ReAct 的变体
证明了"边想边做"比"只想不做"或"只做不想"都好
可观察性极强：Thought 让人能看懂 Agent 为什么这么做，便于调试
通用性极强：问答、推理、交互环境、网页操作都能用

ReAct 的局限性（2026 视角）

局限	后续解法
单步推理，缺乏全局规划	Plan-then-Execute 范式
无法自我纠错	Reflexion（自我反思 Agent）
工具调用粒度粗	Anthropic Computer Use / MCP
上下文越来越长	Extended Thinking / Claude Opus 4.7 100K thinking

读这篇论文的正确姿势

先看 Figure 1（ReAct vs CoT vs Act 对比图）------30 秒建立直觉
重点读 §3（ReAct 格式定义）------理解 Thought/Action/Observation 的形式化
仔细看 §4.1 的例子（HotpotQA）------最直觉的演示
Table 1-3 的实验结果------量化证据
§5.2 错误分析------理解 ReAct 在哪里会失败

两篇论文的关系

复制代码

Transformer（2017）           ReAct（2022）
   ↓                            ↓
定义了"LLM 怎么思考"        定义了"LLM 怎么行动"
   ↓                            ↓
GPT/Claude/DeepSeek...      LangChain/AutoGPT/Manus...
   ↓                            ↓
      ←←← 合在一起 →→→
              ↓
   2024-2026: Agent 时代爆发
   Claude Computer Use / Agentforce / Devin

如果你只读两篇 AI 论文：Transformer 让你理解"引擎"，ReAct 让你理解"方向盘"。引擎+方向盘 = 能跑的 Agent。

📚 延伸阅读

Illustrated Transformer（Jay Alammar） --- 最佳可视化入门
3Blue1Brown: Attention in Transformers --- 数学直觉
Reflexion: Language Agents with Verbal Reinforcement Learning --- ReAct 的自我纠错升级版
Anthropic: Building Effective Agents --- ReAct 思想在工业界的最终形态

路易乔布斯 © 2026 ｜「AI 学习计划」系列第 27 篇｜模块 07 论文导读 1/3