神经网络之Softmax激活函数求导过程

🔢 一、Softmax 函数的定义

给定一个输入向量:

z=[z1,z2,...,zn]⊤ \mathbf{z} = [z_1, z_2, ..., z_n]^\top z=[z1,z2,...,zn]⊤

Softmax 函数将其变换为一个输出向量(概率分布):

σ(z)i=ezi∑j=1nezjfor i=1,...,n \sigma(\mathbf{z})i = \frac{e^{z_i}}{\sum{j=1}^n e^{z_j}} \quad \text{for } i = 1, ..., n σ(z)i=∑j=1nezjezifor i=1,...,n

这是一个向量函数,将实数向量映射为每个元素在 (0, 1) 之间,且总和为 1。


🎯 二、目标:求导

我们要推导的是:

∂σ(z)i∂zk \frac{\partial \sigma(\mathbf{z})_i}{\partial z_k} ∂zk∂σ(z)i

也就是说:

Softmax 输出第 iii 个分量对输入向量第 kkk 个分量的偏导数。


🧮 三、对两种情况分别推导

✅ 情况 1:当 i=ki = ki=k(对自己求导)

我们记 Softmax 输出为 sis_isi:

si=ezi∑j=1nezj s_i = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}} si=∑j=1nezjezi

利用商法则:

∂si∂zi=ezi⋅∑jezj−ezi⋅ezi(∑jezj)2=ezi(∑jezj−ezi)(∑jezj)2 \frac{\partial s_i}{\partial z_i} = \frac{e^{z_i} \cdot \sum_j e^{z_j} - e^{z_i} \cdot e^{z_i}}{(\sum_j e^{z_j})^2} = \frac{e^{z_i}(\sum_j e^{z_j} - e^{z_i})}{(\sum_j e^{z_j})^2} ∂zi∂si=(∑jezj)2ezi⋅∑jezj−ezi⋅ezi=(∑jezj)2ezi(∑jezj−ezi)

整理一下:

∂si∂zi=si(1−si) \frac{\partial s_i}{\partial z_i} = s_i (1 - s_i) ∂zi∂si=si(1−si)


✅ 情况 2:当 i≠ki \ne ki=k(对别的分量求导)

∂si∂zk=0⋅∑jezj−ezi⋅ezk(∑jezj)2=−eziezk(∑jezj)2=−sisk \frac{\partial s_i}{\partial z_k} = \frac{0 \cdot \sum_j e^{z_j} - e^{z_i} \cdot e^{z_k}}{(\sum_j e^{z_j})^2} = -\frac{e^{z_i} e^{z_k}}{(\sum_j e^{z_j})^2} = -s_i s_k ∂zk∂si=(∑jezj)20⋅∑jezj−ezi⋅ezk=−(∑jezj)2eziezk=−sisk


📦 四、结果:Jacobian 矩阵形式

我们将所有偏导组织成一个 Jacobian 矩阵 J∈Rn×nJ \in \mathbb{R}^{n \times n}J∈Rn×n,有:

J_{ik} = \\frac{\\partial s_i}{\\partial z_k} = \\begin{cases} s_i (1 - s_i), \& \\text{if } i = k \\ * s_i s_k, \& \\text{if } i \\ne k \\end{cases}

也可以写成矩阵形式:

∂s∂z=diag(s)−ss⊤ \frac{\partial \boldsymbol{s}}{\partial \mathbf{z}} = \text{diag}(\boldsymbol{s}) - \boldsymbol{s} \boldsymbol{s}^\top ∂z∂s=diag(s)−ss⊤

其中:

  • diag(s)\text{diag}(\boldsymbol{s})diag(s) 是以 sis_isi 为对角元素的对角矩阵
  • ss⊤\boldsymbol{s} \boldsymbol{s}^\topss⊤ 是外积(得到一个 rank-1 的矩阵)

💡 五、在神经网络中的用法

常见组合:Softmax + CrossEntropy(交叉熵损失)

在多分类神经网络中,常见组合是:

  • 最后一层使用 Softmax 输出概率
  • 损失函数使用交叉熵 Loss

这种组合在反向传播时有非常好的性质,导数公式变得非常简单:

∂Loss∂zi=y^i−yi \frac{\partial \text{Loss}}{\partial z_i} = \hat{y}_i - y_i ∂zi∂Loss=y^i−yi

其中:

  • y^i\hat{y}_iy^i:Softmax 输出
  • yiy_iyi:真实标签(one-hot)

这就是为什么框架(如 PyTorch)中提供 CrossEntropyLoss 是直接整合了 Softmax + Log + NLLLoss。


✅ 总结表:Softmax 求导

项目 内容
函数定义 si=ezi∑jezjs_i = \frac{e^{z_i}}{\sum_j e^{z_j}}si=∑jezjezi
对自己求导 ∂si∂zi=si(1−si)\frac{\partial s_i}{\partial z_i} = s_i (1 - s_i)∂zi∂si=si(1−si)
对他人求导 ∂si∂zk=−sisk\frac{\partial s_i}{\partial z_k} = -s_i s_k∂zk∂si=−sisk
Jacobian 矩阵 J=diag(s)−ss⊤J = \text{diag}(s) - s s^\topJ=diag(s)−ss⊤
应用 多分类输出层、交叉熵损失的梯度计算
相关推荐
地球资源数据云20 小时前
2015年中国30米分辨率沼泽湿地空间分布数据集
大数据·数据结构·数据库·人工智能·机器学习
郝学胜-神的一滴20 小时前
深度学习核心:损失函数完全解析 —— 从原理到 PyTorch 实战
人工智能·pytorch·python·深度学习·机器学习
数据与后端架构提升之路20 小时前
自动驾驶数据闭环中,Video Clip 的多模态特征到底怎么提取?
人工智能·机器学习·自动驾驶
AI技术增长20 小时前
Pytorch图像去噪实战(十):Restormer图像去噪实战,用高效Transformer解决高分辨率去噪问题
pytorch·深度学习·机器学习·cnn·transformer
sali-tec20 小时前
C# 基于OpenCv的视觉工作流-章56-OCR
图像处理·人工智能·opencv·算法·计算机视觉·ocr
StfinnWu20 小时前
论文阅读:Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing
人工智能·计算机视觉
链上日记20 小时前
WEEX Labs:当 AI 制造视觉迷雾,Web3 正在重塑信息的透明边界
人工智能·制造
木心术120 小时前
AI在FPGA中实现多平台射频信号时隙调整参考及案例
人工智能·fpga开发·信息与通信
云布道师20 小时前
阿里云 Tablestore 为 Hermes Agent 构建记忆系统最佳实践
网络·人工智能·阿里云
audyxiao00120 小时前
智能交通顶刊TITS论文分享|一种基于文本提示引导的多模态大语言模型的交通流预测框架
人工智能·深度学习·多模态大模型