【系统学AI】25 论文导读 ①:两篇改变 AI 的开山之作——Attention Is All You Need & ReAct

本文是「AI 学习计划」系列第 27 篇,模块 07 论文导读第 1 篇。

选这两篇放一起读:Transformer 定义了"大模型怎么思考",ReAct 定义了"大模型怎么行动"。一个是引擎,一个是方向盘。


论文 A:Attention Is All You Need(2017)

基本信息

内容
标题 Attention Is All You Need
作者 Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin(Google Brain + Google Research)
发表 NeurIPS 2017
引用 130,000+(截至 2026,AI 领域史上引用最高的论文之一)
链接 https://arxiv.org/abs/1706.03762

一句话总结

完全抛弃 RNN/CNN,仅用自注意力机制(Self-Attention)构建序列到序列模型,速度更快、效果更好。

这篇论文解决了什么问题?

2017 年之前,NLP 的主流架构是 RNN(LSTM/GRU):

  • 问题 1:无法并行------RNN 必须逐步处理序列,token 1 算完才能算 token 2,GPU 利用率极低
  • 问题 2:长距离遗忘------序列太长时,前面的信息到后面就"忘了"(梯度消失)
  • 问题 3:训练慢------因为无法并行,大规模训练代价极高

Transformer 的解法:用注意力机制一次性"看完"整个序列,每个 token 都能直接关注到任意远处的 token,且所有计算完全可并行。

核心架构拆解(5 个关键模块)

复制代码
输入 → [Embedding + 位置编码] → [Encoder ×6] → [Decoder ×6] → 输出
1. Self-Attention(自注意力)------论文核心
复制代码
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
  • Q(Query):我在找什么
  • K(Key):我有什么标签
  • V(Value):我的实际内容
  • √d_k:缩放因子,防止点积过大导致 softmax 梯度消失

直觉理解:每个词对其他所有词做一次"相关性投票",投票结果决定这个词应该关注谁。

2. Multi-Head Attention(多头注意力)

不是做一次注意力,而是做 h=8 次(8 个头),每个头关注不同的语义维度:

  • 头 1 可能关注语法关系
  • 头 2 可能关注语义相似度
  • 头 3 可能关注位置邻近性

最后把 8 个头的结果拼起来,过一个线性层。

3. 位置编码(Positional Encoding)

因为注意力机制本身不知道"顺序"(它是并行计算的),需要手动注入位置信息:

复制代码
PE(pos, 2i)   = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

为什么用三角函数?因为它能让模型学到"相对位置"(两个位置的编码差是固定模式)。

📌 2026 注 :现代大模型已用 RoPE(旋转位置编码) 替代,支持更长上下文。但理解原始设计是基础。

4. Feed-Forward Network(FFN)

每个 Attention 层后面跟一个两层 MLP:

复制代码
FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

有人把 FFN 比喻为"记忆库"------注意力层负责理解关系,FFN 负责存储知识。

5. 残差连接 + Layer Norm

每个子层都是:output = LayerNorm(x + SubLayer(x))

残差连接让梯度能直接流回底层(解决深层网络训练难题),LayerNorm 让训练更稳定。

为什么这篇论文改变了一切?

影响 具体表现
GPT 系列 只用 Decoder(自回归),GPT-1→GPT-5.5
BERT 系列 只用 Encoder(双向),BERT→RoBERTa→DeBERTa
T5/GLM Encoder-Decoder 完整使用
Vision Transformer 把图像切成 patch 当 token 处理
扩散模型 Stable Diffusion 的 U-Net 里嵌入了 Cross-Attention

一句话总结影响:2017 年后 AI 领域几乎所有突破,都建立在 Transformer 之上。

读这篇论文的正确姿势

  1. 先看 Figure 1(架构图)------建立全局直觉
  2. 重点读 §3.2(Scaled Dot-Product Attention)------核心公式
  3. 理解 §3.2.2(Multi-Head)------为什么多个头比一个好
  4. 跳过 §5.4(训练细节)------除非你要复现
  5. 配合 Jay Alammar 的 Illustrated Transformer 一起看------可视化版

论文 B:ReAct --- Synergizing Reasoning and Acting in Language Models(2022)

基本信息

内容
标题 ReAct: Synergizing Reasoning and Acting in Language Models
作者 Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao(Princeton + Google Brain)
发表 ICLR 2023 (Spotlight)
引用 4,000+(Agent 领域引用最高的论文之一)
链接 https://arxiv.org/abs/2210.03629

一句话总结

让 LLM 在生成"推理过程"(Thought)的同时生成"行动"(Action),形成 Thought→Action→Observation 循环,显著提升复杂任务完成能力。

解决了什么问题?

2022 年之前,LLM 有两个流派:

  • Chain-of-Thought(CoT):让模型"一步步想",但只能推理,不能行动(不能搜索、不能计算)
  • Action-only:让模型直接调工具,但没有推理过程,经常做蠢事

ReAct 把两者合并:先想为什么要做(Thought),再做(Action),看到结果(Observation),再想下一步

核心范式:Thought-Action-Observation 循环

复制代码
用户问题: "Apple Remote 能控制哪些程序,这些程序的原开发者是谁?"

Thought 1: 我需要先搜索 Apple Remote 能控制什么程序。
Action 1: Search["Apple Remote"]
Observation 1: Apple Remote 可以控制 Front Row 和 iTunes...

Thought 2: 我知道 Apple Remote 能控制 Front Row,我需要查 Front Row 的开发者。
Action 2: Search["Front Row software"]
Observation 2: Front Row 是 Apple 开发的...

Thought 3: 现在我还需要查 iTunes 的原开发者。
Action 3: Search["iTunes original developer"]
Observation 3: iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发...

Thought 4: 我现在有了所有信息。
Action 4: Finish["Front Row 和 iTunes。Front Row 由 Apple 开发,iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发。"]

关键实验结果

任务 CoT-only Act-only ReAct
HotpotQA(多跳问答) 29.4% 25.7% 34.2%
FEVER(事实验证) 56.3% 58.2% 64.1%
ALFWorld(交互游戏) --- 45% 71%
WebShop(网页购物) --- 62.4% 66.6%

为什么 ReAct 这么重要?

  1. 定义了 Agent 的基本范式:所有后续 Agent 框架(LangChain、AutoGPT、Claude)都是 ReAct 的变体
  2. 证明了"边想边做"比"只想不做"或"只做不想"都好
  3. 可观察性极强:Thought 让人能看懂 Agent 为什么这么做,便于调试
  4. 通用性极强:问答、推理、交互环境、网页操作都能用

ReAct 的局限性(2026 视角)

局限 后续解法
单步推理,缺乏全局规划 Plan-then-Execute 范式
无法自我纠错 Reflexion(自我反思 Agent)
工具调用粒度粗 Anthropic Computer Use / MCP
上下文越来越长 Extended Thinking / Claude Opus 4.7 100K thinking

读这篇论文的正确姿势

  1. 先看 Figure 1(ReAct vs CoT vs Act 对比图)------30 秒建立直觉
  2. 重点读 §3(ReAct 格式定义)------理解 Thought/Action/Observation 的形式化
  3. 仔细看 §4.1 的例子(HotpotQA)------最直觉的演示
  4. Table 1-3 的实验结果------量化证据
  5. §5.2 错误分析------理解 ReAct 在哪里会失败

两篇论文的关系

复制代码
Transformer(2017)           ReAct(2022)
   ↓                            ↓
定义了"LLM 怎么思考"        定义了"LLM 怎么行动"
   ↓                            ↓
GPT/Claude/DeepSeek...      LangChain/AutoGPT/Manus...
   ↓                            ↓
      ←←← 合在一起 →→→
              ↓
   2024-2026: Agent 时代爆发
   Claude Computer Use / Agentforce / Devin

如果你只读两篇 AI 论文:Transformer 让你理解"引擎",ReAct 让你理解"方向盘"。引擎+方向盘 = 能跑的 Agent。


📚 延伸阅读


路易乔布斯 © 2026 | 「AI 学习计划」系列第 27 篇 | 模块 07 论文导读 1/3

相关推荐
Black蜡笔小新1 小时前
自动化AI算法训练服务器DLTM制造业AI质检工作站助力制造业实现AI智检
人工智能·算法·自动化
川冰ICE1 小时前
⑮ AI音乐与音频:工具详解与创作流程
人工智能·音视频
米小虾1 小时前
2026 年多模态大模型全面爆发:从「看懂图」到「听懂世界」的技术跃迁
人工智能
米小虾1 小时前
AI Agent 进入协议时代:MCP、A2A、AG-UI 三大协议全景解析
人工智能·agent
蝎子莱莱爱打怪1 小时前
🚀 🚀🚀2026年5月GitHub月榜精选:17个项目中挑出10个推荐,实操4个!
人工智能·后端·ai编程
升鲜宝供应链及收银系统源代码服务1 小时前
升鲜宝AI助手项目源码集成开发步骤(一)---升鲜宝生鲜配送供应链管理系统源代码服务
人工智能·生鲜配送系统·生鲜物流线路规划·生鲜电商订单系统·生鲜供应链系统·生鲜系统架构设计·生鲜配送ai功能集成
yjcode7891 小时前
探索游戏充值新纪元:友价源码技术革新之旅
大数据·人工智能·游戏·游戏交易
冬奇Lab2 小时前
Agent 系列(11):A2A 协议——Agent 与 Agent 如何协作
人工智能·agent
snow@li2 小时前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法