神经网络激活函数

神经网络的激活函数（Activation Function）

神经网络可以用在分类问题和回归问题上，不过需要根据情况改变输出层的激活函数。一般而言，回归问题用恒等函数，分类问题用softmax函数。

神经网络的激活函数必须使用非线性函数，因为使用线性函数的话，加深神经网络的层数就再没有意义了：

非线性：当激活函数是非线性的时候（一阶导数不为常数），一个两层的神经网络就可以逼近基本上所有的函数了。如果激活函数是恒等激活函数的时候（即f(x)=x），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。
可微性：当优化方法是基于梯度的时候这个性质是必须的
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数
f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心的去设置初始值。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况下，一般需要更小的learning rate.

softmax函数

分类问题中使用的softmax函数可以用下式表示：
y k = e a k ∑ i = 1 n e a i y_k = \frac{ \text e ^{a_k}}{ \sum_{i=1}^n \text e^{a_i}} yk=∑i=1neaieak

softmax函数在计算机的运算上有一定的缺陷。这个缺陷就是溢出问题。softmax函数的实现中要进行指数函数的运算，但是此时指数函数的值很容易变得非常大。比如， e 10 \text e^{10} e10的值会超过20000， e 100 \text e^{100} e100会变成一个后面有40多个0的超大值， e 1000 \text e^{1000} e1000的结果会返回一个表示无穷大的inf。如果在这些超大值之间进行除法运算，结果会出现"不确定"的情况。

计算机处理"数"时，数值必须在 4字节或 8字节的有限数据宽度内。这意味着数存在有效位数，也就是说，可以表示的数值范围是有限的。因此，会出现超大值无法表示的问题。这个问题称为溢出，在进行计算机的运算时必须（常常）注意。

阶跃函数（Step Function）

python 复制代码

import numpy as np
import matplotlib.pyplot as plt


def step_function(x: np.ndarray) -> np.ndarray[int]:
    return np.array(x > 0, dtype=np.int_)


if __name__ == "__main__":
    x = np.arange(-5, 5, 0.1)
    y = step_function(x)
    plt.ylim(-0.1, 1.1) # 指定y轴范围
    plt.plot(x, y, color = 'b', linewidth=1.5)
    plt.show()

Sigmoid函数

神经网络中经常使用的一个激活函数就是sigmoid函数：
h ( x ) = 1 1 + e − x h(x) = \frac{1}{1+\text e^{-x}} h(x)=1+e−x1

sigmoid函数的导数可以用其自身表示：
h ′ ( x ) = h ( x ) ( 1 − h ( x ) ) h\prime (x) = h(x) (1-h(x)) h′(x)=h(x)(1−h(x))

两种坐标尺度下的Sigmoid函数图如下，上图的横坐标为-5到5，这时的曲线变化较为平滑；下图横坐标的尺度足够大，可以看到，在x = 0点处Sigmoid函数看起来很像阶跃函数：

Sigmoid的缺点：

sigmoid有一个缺点，当输入非常大或者非常小的时候（saturation饱和），这些神经元的梯度是接近于0的。所以，需要尤其注意参数的初始值来尽量避免saturation的情况。如果初始值很大的话，大部分神经元可能都会处在saturation的状态而把gradient kill掉，这会导致网络变的很难学习。
Sigmoid 的 output 不是0均值，这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是：如果数据进入神经元的时候是正的(e.g. x>0 f=wTx+b)，那么 w 计算出的梯度也会始终都是正的

2.4 修正线性单元，ReLU函数（Rectified Linear Unit Function）

ReLU函数在输入大于0时，直接输出该值；在输入小于等于0时，输

出0：
h ( x ) = { x x > 0 0 x ≤ 0 h(x) = \begin{cases} x & x > 0 \\ 0 &x \leq 0\end{cases} h(x)={x0x>0x≤0

ReLU函数的实现非常简单：

python 复制代码

import numpy as np
import matplotlib.pyplot as plt

def relu(x):
    return np.maximum(0, x)


if __name__ == "__main__":
    x = np.arange(-5, 5, .1)
    y = relu(x)
    plt.plot(x, y, color='b', linewidth=1.5)
    plt.show()