机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩

第十四章:Backpropagation --- 知识点笔记

综合来源:Lecture 14 PDF(38页)、课堂笔记(CSDN)


占位图

14.1 梯度计算:三种方法对比 ⭐

(1) 数值微分(Numerical Differentiation)

∂E∂wi≈E(w+ϵIi)−E(w−ϵIi)2ϵ\frac{\partial E}{\partial w_i} \approx \frac{E(w + \epsilon I_i) - E(w - \epsilon I_i)}{2\epsilon}∂wi∂E≈2ϵE(w+ϵIi)−E(w−ϵIi)

优点 缺点
适用于任何函数 近似(非精确)
易于实现 极贵 :需2D2D2D次误差计算→O(ND2)\mathcal{O}(ND^2)O(ND2)总代价

(2) 符号微分(Symbolic Differentiation)

  • 用求导规则推导解析梯度表达式
  • 优点:精确 | 缺点:表达式膨胀(Expression Swell)→大量冗余重复子表达式

(3) 自动微分(Autodiff)⭐

特点 说明
自动 追踪前向计算图→自动生成导数程序
精确 机器精度(非近似)
高效 重用冗余计算

两种模式

模式 方向 适用
Forward Mode 输入→输出 f:R→RMf: \mathbb{R} \to \mathbb{R}^Mf:R→RM(少输入多输出)
Backward Mode 输出→输入 f:RD→Rf: \mathbb{R}^D \to \mathbb{R}f:RD→R(多输入少输出)→DL专用

14.2 前向追踪:计算图 ⭐

将计算分解为基本操作的序列:

复制代码
v1 = x1       v4 = exp(v3)
v2 = x2       v5 = sin(v2)
v3 = v1 * v2  v6 = v4 + v3
              v7 = v6 - v5  (= f)

每个变量viv_ivi是计算图的一个节点 ,操作是有向边


14.3 反向传播:伴随变量 ⭐⭐⭐

核心递归公式

定义伴随变量(Adjoint):ai=∂f∂via_i = \frac{\partial f}{\partial v_i}ai=∂vi∂f

ai=∑j∈Chi∂vj∂vi⋅aja_i = \sum_{j \in \mathbf{Ch}i} \frac{\partial v_j}{\partial v_i} \cdot a_jai=j∈Chi∑∂vi∂vj⋅aj

  • Chi\mathbf{Ch}iChi:viv_ivi的子节点 集合(被viv_ivi影响的后继变量)
  • 从输出向输入递归

算法步骤

  1. 前向 :计算所有viv_ivi的值并缓存
  2. 初始化 :afinal=1a_{final} = 1afinal=1(∂f∂f=1\frac{\partial f}{\partial f}=1∂f∂f=1)
  3. 反向遍历 :按拓扑逆序 计算每个aia_iai
  4. 梯度 :输入变量对应的aia_iai即所求梯度

关键观察

  • 单输出→只需维护一个伴随变量
  • 多路径→梯度累加(sum over children)
  • 需缓存/重算中间变量值

14.4 神经网络中的反向传播

单隐藏层网络梯度

y=σ(W(2)σ(W(1)x))y = \sigma(W^{(2)}\sigma(W^{(1)}x))y=σ(W(2)σ(W(1)x))

对W(1)W^{(1)}W(1)的偏导:

∂E∂Wij(1)=∂E∂y⋅∂y∂z⋅∂z∂Wij(1)\frac{\partial E}{\partial W^{(1)}{ij}} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial z} \cdot \frac{\partial z}{\partial W^{(1)}{ij}}∂Wij(1)∂E=∂y∂E⋅∂z∂y⋅∂Wij(1)∂z

  • 外层导数→内层导数→链式法则嵌套
  • Autodiff自动处理所有嵌套

为什么反向模式高效

  • 深度网络:f:RD→Rf: \mathbb{R}^D \to \mathbb{R}f:RD→R(百万参数→单一损失)
  • 反向模式一次遍历→O(D)\mathcal{O}(D)O(D)计算所有梯度
  • 前向模式需O(D)\mathcal{O}(D)O(D)次遍历→不适合DL

14.5 PyTorch中的Autograd

python 复制代码
loss.backward()  # 自动反向传播→计算所有参数的.grad
  • 追踪requires_grad=True的tensor
  • 构建动态计算图
  • backward()触发反向遍历→填充.grad属性

笔记中的图片索引

序号 图片内容描述 来源位置
图1 三种微分方法对比 Lecture 14 第10-18页
图2 前向计算图追踪 Lecture 14 第20页
图3 反向伴随变量传播全过程 Lecture 14 第24-34页

笔记整理时间:2026年6月29日

相关推荐
love530love1 小时前
WorkBuddy + 本地 ComfyUI MCP:免订阅费的自建方案
人工智能·windows·mcp·comfy cloud
无心水2 小时前
【全域智能营销实战】2、Spring AI 模块化架构深度解读:从 1.0 到 2.0 的演进与最佳实践
人工智能·spring·架构·harness·顶尖架构师·全域智能营销·harmess
HavenlonLabs2 小时前
Havenlon 对抗性完整(十七):安全不是“防住攻击”,而是控制失败方式
网络·人工智能·架构·安全威胁分析·安全架构·havenlon
leoZ2312 小时前
Claude 全面解析:从基础原理到实战应用指南
人工智能·游戏
doiito(Do It Together)2 小时前
media_agent 进化之路:把 Gliding Horse 的 Agent 超能力注入 ComfyUI,让图片生成自己“学会”优化
人工智能·架构·rust·knowledge graph
Code_Artist2 小时前
Trae AI 创造力大赛创意作品:AI 数字克隆人——让你有无数个分身!
人工智能·llm·aigc
涛声依旧-底层原理研究所2 小时前
Agent 长任务可靠性设计:实现暂停、恢复、续跑与崩溃重启的完整方案
人工智能·python·系统架构
AC赳赳老秦2 小时前
防火墙规则批量配置实战:OpenClaw 自动生成模板、批量下发与合规性校验全解析
java·开发语言·人工智能·python·github·php·openclaw