softmax和sigmoid的区别

sigmoid

公式: s i g m o i d ( x ) = 1 1 + e − x sigmoid(x) = \frac{1}{1 + e^{-x}} sigmoid(x)=1+e−x1

函数曲线如下:

导数公式: f ( x ) ′ = e − x ( 1 + e − x ) 2 = f ( x ) ( 1 − f ( x ) ) f(x)\prime = \frac{ e^{-x}}{(1 + e^{-x})^2} = f(x)(1-f(x)) f(x)′=(1+e−x)2e−x=f(x)(1−f(x))

导数曲线如下:

sigmoid代码:

javascript 复制代码
import torch
import torch.nn.functional as F
 
// sigmoid函数
x = torch.tensor([1.0, 2.0, 3.0])
// y = 1 / (1 + torch.exp(-x))	
y = torch.sigmoid(x)
print(f"sigmoid result: {y}")
print(f"sigmoid derivative: {y * (1 - y)}")

softmax

公式:
s o f t m a x ( z i ) = z i ∑ j = 1 n e z j softmax(z_i) = \frac{z_i}{\sum_{j=1}^n e^{z_j}} softmax(zi)=∑j=1nezjzi

指数函数曲线: y = e x y= e^{x} y=ex

  • 引入指数形式的优点:
    指数函数曲线呈现递增趋势,斜率逐渐增大,在 x 轴上一个很小的变化可以导致 y 轴上很大的变化。
  • 引入指数形式的缺点:
    当 z值非常大时,计算得到的数值会变得非常大,可能会溢出。通常针对数值溢出的方法,是将每一个输出值减去输出值中的最大值。

导数公式:

softmax代码:

javascript 复制代码
import torch
import torch.nn.functional as F

def softmax(x):
    """Compute the softmax of vector x."""
    exps = np.exp(x)
    return exps / np.sum(exps) 

// softmax函数
x = torch.tensor([1.0, 2.0, 3.0])
y = F.softmax(x, dim=0)
print(f"softmax result: {y}")
print(f"softmax derivative: {torch.diag(y) - torch.outer(y, y)}")

softmax与cross entropy的联系

事实上,交叉熵与Softmax没有直接的关系。

交叉熵本质是衡量两个概率分布的距离的,而softmax能把一切转换成概率分布。
H ( L , P ) = − ∑ j = 1 n L j l o g ( P j ) H(L,P) = -\sum_{j=1}^nL_jlog(P_j) H(L,P)=−j=1∑nLjlog(Pj)

其中P是预测概率分布,L是真实标签分布。

相关推荐
小O的算法实验室5 小时前
2026年KBS,流形感知强化学习差分进化算法+不规则3D无人机路径规划,深度解析+性能实测
算法·智能算法·智能算法改进
玖釉-5 小时前
C++ 中的循环语句详解:while、do...while、for、嵌套循环与循环控制
开发语言·c++·算法
不做无法实现的梦~6 小时前
运动控制系统复习一览-----常考题目总结版本
算法
小短腿的代码世界6 小时前
信号路由风暴:Qt算法交易系统的高频信号分发架构
qt·算法·架构
阿文的代码库6 小时前
一文读懂GROUP BY 1,2 VS GROUP BY column_1, column_2 的区别
算法
008爬虫实战录7 小时前
【码上爬】 题十:魔改算法 堆栈分析,找加密值过程详解
前端·python·算法
chao1898447 小时前
基于狮蚁群算法(ALO)的火电机组功能调度实现
人工智能·算法
Deep-w7 小时前
【MATLAB】含光伏 - 储能的家庭/工业微电网能量管理仿真研究
开发语言·算法·matlab
阿文的代码库7 小时前
换根技巧实例分析:最小高度树
算法·动态规划
dyxal7 小时前
Louvain 算法:让网络自己“报团取暖”的发现者
开发语言·算法