sigmoid函数
data:image/s3,"s3://crabby-images/3795a/3795ac5485bc6a7bdaaf707bb11d422fc7c3113c" alt=""
data:image/s3,"s3://crabby-images/820de/820de0136cbda8524d159a9278624fad48f0e739" alt=""
python
import torch
from d2l import torch as d2l
%matplotlib inline
x=torch.arange(-10,10,0.1,requires_grad=True)
sigmoid=torch.nn.Sigmoid()
y=sigmoid(x)
d2l.plot(x.detach(),y.detach(),'x','sigmoid(x)',figsize=(5,2.5))
sigmoid函数连续、光滑、单调递增,以 (0,0.5) 中心对称,是一个良好的阈值函数。在x超出[-6,6]的范围后,函数值基本上没有变化,值非常接近,在应用中一般不考虑。
sigmoid函数的值域范围限制在(0,1)之间,恰巧与概率值的范围相对应,这样Sigmoid函数就能与一个概率分布联系起来了。
存在等式:
data:image/s3,"s3://crabby-images/12d2e/12d2eb2bfaef9c4d41780d7b269e127f63c08d3e" alt=""
当输入值为0时,sigmoid函数的导数达到最大值0.25;而输入在任一方向上越远离0点时,导数越接近0。
data:image/s3,"s3://crabby-images/26530/2653061b541698d973879a130ba2ff49f61ea111" alt=""
python
#清除以前的梯度
#retain_graph如果设置为False,计算图中的中间变量在计算完后就会被释放。
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of sigmoid')
sigmoid函数可用作逻辑回归模型的分类器。除此之外还存在其自身的推到特性。
对于分类问题,尤其是二分类问题,都假定服从伯努利分布,
data:image/s3,"s3://crabby-images/e3a8d/e3a8d9d0248ee1a9585d363412de0a6dd2722da0" alt=""
根据指数分布族的一半表现形式
data:image/s3,"s3://crabby-images/5fe77/5fe775b29e1767f452a31979ec9b3420e69d0b33" alt=""
伯努利分布可变形为:
data:image/s3,"s3://crabby-images/81c82/81c8216e15f20026ee6bd28d4dcaa91bf2bfe027" alt=""
故,伯努利分布也属于指数分布族,
令,可得
此为sigmoid函数形式。
tanh函数
与sigmoid类似,tanh函数也会将输入压缩至(-1,1)。
data:image/s3,"s3://crabby-images/ca8a0/ca8a0322f48218faf5f35a6195c3ce4738444838" alt=""
data:image/s3,"s3://crabby-images/c5e0c/c5e0ccd803af26908b3637f80464a574b3d036b1" alt=""
python
import torch
from d2l import torch as d2l
%matplotlib inline
x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
tanh=torch.nn.Tanh()
y=tanh(x)
d2l.plot(x.detach(),y.detach(),'x','tanh(x)',figsize=(5,2.5))
存在等式:
data:image/s3,"s3://crabby-images/a62a6/a62a6d656899932fc9b17ea232e1fbd660df6d0b" alt=""
tanh函数的导数如下,当输入接近0时,tanh函数的导数接近最大值1,输入在任一方向上远离0点,导数越接近0。
data:image/s3,"s3://crabby-images/759c3/759c39e4c49dedb5e1abb0471f8508530356b292" alt=""
python
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of tanh',figsize=(5,2.5))
ReLU函数
ReLU函数的求导表现很好:要么让参数消失,要么让参数通过。
ReLU减轻了神经网络的梯度消失问题。ReLU函数有很多变体,如LeakyReLU,pReLU等。
python
#原函数
import torch
from d2l import torch as d2l
%matplotlib inline
x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
relu=torch.nn.ReLU()
y=relu(x)
d2l.plot(x.detach(),y.detach(),'x','relu',figsize=(5,2.5))
#导数
#retain_graph如果设置为False,计算图中的中间变量在计算完后就会被释放。
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of relu',figsize=(5,2.5))
变种:Leaky Relu函数
负区间值非0,为一个斜率相较小的线性函数
softmax函数
在二分类任务时,经常使用sigmoid激活函数。而在处理多分类问题的时候,需要使用softmax函数。它的输出有两条规则。
-
每一项的区间范围的(0,1)
-
所有项相加的和为1
假设有一个数组 V,Vi代表 V 中的第i个元素,那么这个元素的softmax值的计算公式为:
data:image/s3,"s3://crabby-images/19b9e/19b9e5da9cf54e65f95b6ccc8196934509d712ed" alt=""
python
x=torch.Tensor([3.,1.,-3.]) softmax=torch.nn.Softmax(dim=0) y=softmax(x) print(y)