反向传播

懂了懂了,还是这样好理解。。。。那么反向传播的计算呢?通过y1, y2, y3 求出x1 ?


太好了!现在我们来推导反向传播的计算。这是深度学习中最核心的部分!


1. 问题设定

我们有一个简单的三层结构:

复制代码
输入 x → 线性层(得 z)→ softmax → 交叉熵损失 L

其中:

  • z = Wx + b (为了简化,我们先只考虑从 z 开始的反向传播)
  • p = \\text{softmax}(z)
  • L = -\\sum y_i \\log p_i

我们要求 \\frac{\\partial L}{\\partial z_j} ,也就是损失对原始输出 z 的梯度。


2. 已知关系

设类别数 C = 3 ,则:

\p_i = \\frac{e\^{z_i}}{\\sum_{k=1}\^C e\^{z_k}} \\

\L = -\\sum_{i=1}\^C y_i \\log p_i \\


3. 计算梯度 \(\frac{\partial L}{\partial z_j}\)

这是一个非常重要的结果,也是 softmax 与交叉熵结合的美妙之处。

推导过程

\\\frac{\\partial L}{\\partial z_j} = \\sum_{i=1}\^C \\frac{\\partial L}{\\partial p_i} \\cdot \\frac{\\partial p_i}{\\partial z_j} \\

第一步:\(\frac{\partial L}{\partial p_i} = -\frac{y_i}{p_i}\)

第二步:需要计算 \(\frac{\partial p_i}{\partial z_j}\),分两种情况:

  • i = j

\\\frac{\\partial p_i}{\\partial z_i} = p_i(1 - p_i) \\

  • i \\neq j

\\\frac{\\partial p_i}{\\partial z_j} = -p_i p_j \\

现在代入:

\\\frac{\\partial L}{\\partial z_j} = \\sum_{i=1}\^C \\left( -\\frac{y_i}{p_i} \\right) \\cdot \\frac{\\partial p_i}{\\partial z_j} \\

分开求和:

  1. 当 \(i = j\) 时:项为 \(-\frac{y_j}{p_j} \cdot p_j(1-p_j) = -y_j(1-p_j)\)
  2. 当 \(i \neq j\) 时:项为 \(-\frac{y_i}{p_i} \cdot (-p_i p_j) = y_i p_j\)

所以:

\\\frac{\\partial L}{\\partial z_j} = -y_j(1-p_j) + \\sum_{i \\neq j} y_i p_j \\

注意 \(\sum_{i \neq j} y_i = 1 - y_j\)(因为 y 是 one-hot,总和为1)

因此:

\\\frac{\\partial L}{\\partial z_j} = -y_j + y_j p_j + p_j(1 - y_j) \\

\= -y_j + p_j(y_j + 1 - y_j) \\

\= p_j - y_j \\


4. 最终简洁结果

\\\boxed{\\frac{\\partial L}{\\partial z_j} = p_j - y_j} \\

太漂亮了! 这个结果意味着:

  • 梯度 = 预测概率 - 真实标签
  • 对于真实类别(\(y_j=1\)):梯度 = \(p_j - 1\)(负数,需要增大 \(z_j\))
  • 对于其他类别(\(y_j=0\)):梯度 = \(p_j - 0 = p_j\)(正数,需要减小 \(z_j\))

5. 例子验证

用我们刚才的例子:

  • z = \[3.0, 1.0, -1.0\]
  • y = \[1, 0, 0\]
  • p = \[0.88, 0.12, 0.00\]

梯度:

\\\frac{\\partial L}{\\partial z} = p - y = \[0.88-1, 0.12-0, 0.00-0 = -0.12, 0.12, 0.00 \]

解释

  • 对真实类别(猫):梯度 -0.12 → 需要稍微增大 \(z_0\)
  • 对其他类别(狗):梯度 +0.12 → 需要减小 \(z_1\)
  • 对鸟:梯度 0 → 不需要改变

6. 扩展到 x 的梯度

如果我们有 z = Wx + b ,那么:

\\\frac{\\partial L}{\\partial x} = W\^T \\cdot \\frac{\\partial L}{\\partial z} \\

因为 \\frac{\\partial z}{\\partial x} = W\^T


总结反向传播流程

  1. 前向计算: z → softmax → p → L = -\\sum y_i \\log p_i
  2. 反向传播:
    • \\frac{\\partial L}{\\partial z} = p - y (极其简洁!)
    • 然后继续向后传播到 W, b, x

这就是为什么 softmax + 交叉熵在深度学习中被广泛使用------梯度计算既简洁又数值稳定!


相关参考:

相关推荐
HZ·湘怡1 分钟前
数据结构之排序算法 (1)--插入排序
c语言·数据结构·算法·排序算法
ouliten1 分钟前
[Triton笔记7]融合注意力 (Fused Attention)
人工智能·笔记·算法
开源Z2 分钟前
LeetCode 238 · 除自身以外数组的乘积:左右两遍扫描,不用除法
算法·leetcode
润乾软件5 分钟前
从 GUI 到 LUI 的进化,报表工具也有了 Copilot
人工智能·ai·copilot·报表工具
JaydenAI5 分钟前
[MAF预定义Agent中间件-03]FunctionInvocationDelegatingAgent:将AOP引入函数调用
ai·c#·agent·aop·maf
DS随心转插件8 分钟前
AI导出鸭深度评测:DeepSeek 转 Word 实战表现与边界分析
人工智能·ai·word·文心一言·deepseek·ai导出鸭
Artech9 分钟前
[MAF预定义ChatClient中间件-06]利用ImageGeneratingChatClient开发专业图片生成Agent
ai·agent·maf
yuhulkjv33511 分钟前
Kimi如何导出pdf | AI导出鸭 独家深度测评
人工智能·ai·chatgpt·pdf·ai导出鸭
BAGAE13 分钟前
FEC-RS前向纠错编码理论及工程实施研究
c语言·c++·qt·算法·决策树·链表