激活层为softmax时,CrossEntropy损失函数对激活层输入Z的梯度

∂ L ∂ Z = y ^ − y \frac{\partial L}{\partial Z}=\hat{y}-y ∂Z∂L=y^−y

其中 y y y为真实值,采用one-hot编码, y ^ \hat{y} y^为softmax输出的预测值

证明: \textbf{证明:} 证明:

根据softmax公式:
y ^ i = e z i ∑ j = 1 n e z j \hat{y}i=\frac{e^{z_i}}{\sum{j=1}^ne^{z_j}} y^i=∑j=1nezjezi

根据CrossEntropy公式:

L = − ∑ i = 1 n y i l o g y ^ i = − ∑ i = 1 n y i l o g e z i ∑ j = 1 n e z j = − y l l o g e z l ∑ j = 1 n e z j − ∑ i = 1 , i ≠ l n y i l o g e z i ∑ j = 1 n e z j \begin{align*} L&=-\sum_{i=1}^ny_ilog\hat{y}i \\ &=-\sum{i=1}^ny_ilog\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_llog\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}-\sum_{i=1,i \neq l}^ny_ilog\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}} \end{align*} L=−i=1∑nyilogy^i=−i=1∑nyilog∑j=1nezjezi=−yllog∑j=1nezjezl−i=1,i=l∑nyilog∑j=1nezjezi

所以
∂ L ∂ z l = − ∑ i = 1 , i ≠ l n y i ∑ j = 1 n e z j e z i − e z i e z l ( ∑ j = 1 n e z j ) 2 − y l ∑ j = 1 n e z j e z l e z l ∑ j = 1 n e z j − e z l e z l ( ∑ j = 1 n e z j ) 2 = − ∑ i = 1 , i ≠ l n y i ( − e z l ∑ j = 1 n e z j ) − y l ∑ j = 1 n e z j − e z l ∑ j = 1 n e z j = − ∑ i = 1 , i ≠ l n y i ( − e z l ∑ j = 1 n e z j ) − y l + y l e z l ∑ j = 1 n e z j = − y l + ∑ i = 1 n y i e z l ∑ j = 1 n e z j = − y l + e z l ∑ j = 1 n e z j ∑ i = 1 n y i \begin{align*} \frac{\partial L}{\partial z_l} &=-\sum_{i=1,i\neq l}^ny_i\frac{\sum_{j=1}^ne^{z_j}} {e^{z_i}}\frac{-e^{z_i}e^{z_l}}{(\sum_{j=1}^ne^{z_j})^2}-y_l\frac{\sum_{j=1}^ne^{z_j}}{e^{z_l}}\frac{e^{z_l}\sum_{j=1}^ne^{z_j}-e^{z_l}e^{z_l}}{(\sum_{j=1}^ne^{z_j})^2} \\ &=-\sum_{i=1,i\neq l}^ny_i(\frac{-e^{z_l}}{\sum_{j=1}^ne^{z_j}})-y_l\frac{\sum_{j=1}^ne^{z_j}-e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-\sum_{i=1,i\neq l}^ny_i(\frac{-e^{z_l}}{\sum_{j=1}^ne^{z_j}})-y_l+y_l\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_l+\sum_{i=1}^ny_i\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}} \\ &=-y_l+\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}\sum_{i=1}^ny_i \end{align*} ∂zl∂L=−i=1,i=l∑nyiezi∑j=1nezj(∑j=1nezj)2−eziezl−ylezl∑j=1nezj(∑j=1nezj)2ezl∑j=1nezj−ezlezl=−i=1,i=l∑nyi(∑j=1nezj−ezl)−yl∑j=1nezj∑j=1nezj−ezl=−i=1,i=l∑nyi(∑j=1nezj−ezl)−yl+yl∑j=1nezjezl=−yl+i=1∑nyi∑j=1nezjezl=−yl+∑j=1nezjezli=1∑nyi

因为 y y y采用one-hot编码,所以
∑ i = 1 n y i = 1 \begin{align*} \sum_{i=1}^ny_i=1 \end{align*} i=1∑nyi=1

所以
∂ L ∂ z l = − y l + e z l ∑ j = 1 n e z j = y ^ l − y l \frac{\partial L}{\partial z_l}=-y_l+\frac{e^{z_l}}{\sum_{j=1}^ne^{z_j}}=\hat{y}_l-y_l ∂zl∂L=−yl+∑j=1nezjezl=y^l−yl

所以
∂ L ∂ Z = y ^ − y \frac{\partial L}{\partial Z}=\hat{y}-y ∂Z∂L=y^−y

相关推荐
luoganttcc1 天前
RoboTron-Drive:自动驾驶领域的全能多模态大模型
人工智能·机器学习·自动驾驶
Ai173163915791 天前
2025.11.28国产AI计算卡参数信息汇总
服务器·图像处理·人工智能·神经网络·机器学习·视觉检测·transformer
青云交1 天前
Java 大视界 -- Java 大数据机器学习模型在电商评论情感分析与产品口碑优化中的应用
机器学习·自然语言处理·lstm·情感分析·java 大数据·电商评论·产品口碑
m0_372257021 天前
ID3 算法为什么可以用来优化决策树
算法·决策树·机器学习
Together_CZ1 天前
Cambrian-S: Towards Spatial Supersensing in Video——迈向视频中的空间超感知
人工智能·机器学习·音视频·spatial·cambrian-s·迈向视频中的空间超感知·supersensing
鼎道开发者联盟1 天前
智能原生操作系统畅想:人智共生新时代的基石
人工智能·机器学习·自然语言处理
lisw052 天前
6G频段与5G频段有何不同?
人工智能·机器学习
双翌视觉2 天前
双翌全自动影像测量仪:以微米精度打造智能化制造
人工智能·机器学习·制造
编程小白_正在努力中2 天前
神经网络深度解析:从神经元到深度学习的进化之路
人工智能·深度学习·神经网络·机器学习
我不是QI2 天前
周志华《机器学习---西瓜书》 一
人工智能·python·机器学习·ai