神经网络基础--什么是神经网络？？常用激活函数是什么？？？

前言

本专栏更新神经网络的一些基础知识；
案例代码基于pytorch；
欢迎收藏 + 关注，本人将会持续更新。

神经网络

1、什么是神经网络

人工神经网络（ Artificial Neural Network，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。

高中学生物的时候，我们可以发现在生物的神经网络中，由一个个神经元连接而成，在每个神经元中传递各种复杂的信号，在树突中输入信号，然后对信号进行处理，在轴突中输出信号这一过程。生物神经网络如图：

从生物的神经网络中可以看出，神经网络由神经元、树突、轴突所构成，当细胞核电量收集到一定程度的时候，会向数突发送电信号，电信号经过各种处理，最终会在轴突中输出。

2、人工神经网络

人工神经网络（ANN）实际上就是模拟生物神经网络的过程，神经网络可以看作由很多神经元所构成的，一个神经元中树突接收信号，然后进行处理，在轴突中输出信号，换算成人工神经网络中即有三部分构成：输入层、隐藏层、输出层所构成，一个简单的模拟神经元如图：

从上图可以看出，当接收到输入信号的时候，对信号要进行加权计算，最后输出的过程。其中w叫做权重，b叫做偏置，和之前学的斜率和截距相比有着更加专业的名称。

由多个神经元所构成自然就成为了神经网络，如图：

在神经网络中信号只是单方向移动，大概过程就是：

输入层：接收信号，可以看作的输入X
隐藏层：处理信号，对输入的数据进行各种线性和非线性变换，去拟合
输出层，输出信号，可以看作是Y

神经网络的作用：可以看作是一个万能的函数拟合器，拟合各种分布规律的点。

3、总结

神经网络是从生物神经网络中产生的，由很多神经元所有构成，每个神经元又包含输入层、隐藏层、输出层，从而发现数据的规律。

激活函数

1、非线性因素

线性：可以用一个线性方差来表示，如一元线性方程、多元线性方程......

非线性：在高中数学中，我们可以发现，实际应用很少数据规律是符合线性的，因为生活中的数据总是收到多个因素的影响，包括很多不确定因素的影响，数据分布可能符合：指数、对数、指对结合、三角结合............

神经网络 ：从上面的神经网络图中可以发现，线性拟合可以经过不同神经元之间的权重和偏置进行拟合 ，而非线性因素需要引入激活函数 ，引入了激活函数后，神经网络就可以拟合各种曲线，逼近各种函数了，那什么是激活函数呢？请看下面讲解。

2、常见的激活函数

sigmoid

简介

表达式：

f ( x ) = 1 1 + e − x \mathrm{f(x)=\frac1{1+e^{-x}}} f(x)=1+e−x1

图像以及其导函数的图像：

分析可以得出：

sigmoid函数值域为：(0, 1)，即：可以将任何函数值都可以映射到(0, 1) 范围内
函数值效果分析 ：
- (-6, 6)区间内，效果可以，输出值有区别，尤其是在(-3, 3)区间中，效果最好，输出值有明显区别
- 当x在大于6，或者小于-6的时候，效果不佳，输出值没有说明区别
导数图像分析 :
- 值域：(0, 0.25)
- 当x在大于6，或者小于-6的时候，导数值接近为0，收敛平缓

使用场景：

用作激活函数不多，主要运用在二分类中，如逻辑回归，并且神经网络层数不能多，否则很容易到后面求出导数值为0

pytorch代码举例

python 复制代码

import torch
import matplotlib.pyplot as plt 
import torch.nn.functional as F 

from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams['axes.unicode_minus'] = False

def test():
    # 创建画板
    fig, axes = plt.subplots(1, 2)
    
    # 创建sigmoid
    x = torch.linspace(-20, 20, 1000)
    y = F.sigmoid(x)
    axes[0].plot(x, y)
    axes[0].grid()
    axes[0].set_title('Sigmoid 函数值')
    
    # 导函数
    x = torch.linspace(-20, 20, 1000, requires_grad=True)  # 最后一个参数，全程跟踪求导，并且将求导值存入 grad中
    # 求导
    torch.sigmoid(x).sum().backward()  # .backward() 以及任何被x直接或间接影响的、需要梯度的参数，将其值全部存储在 .grad 中
    # 绘图
    axes[1].plot(x.detach(), x.grad)   # .detach() 分离出x没有求导的值，x.grad存储求导的值
    axes[1].grid()
    axes[1].set_title('Sigmoid 导数值')
    
    
    
if __name__ == '__main__':
    test()

输出图像如上图sigmoid所示。

tanh

简介

表达式：

f ( x ) = 1 − e − 2 x 1 + e − 2 x \mathrm{f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}} f(x)=1+e−2x1−e−2x

图像及其导函数图像：

分析：

tanh的值域为：[-1, 1]，即：任何函数值通过tanh函数都可以映射到：[-1, 1]区间
关于源点0对称
函数效果值分析 ：
- 在x属于[-3, 3]这个区域内，函数值映射效果区分度较大
- 当x>3或者x<-3的时候，分别映射成 -1 与 1
导数值分析 ：
- 值域：(0, 1)
- 当x>3或者x<-3的时候，导数值为0
与sigmoid函数区别 ：
- tanh函数收敛速度较快，运用范围较广
- 查阅资料 ：可以搭配使用，隐藏层用tanh，输出层用sigmoid，用于二分类问题

pytorch代码举例

python 复制代码

import torch 
import matplotlib.pyplot as plt 
import torch.nn.functional as F 

from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams['axes.unicode_minus'] = False

def test():
    # 创建画板
    fig, axes = plt.subplots(1, 2)
    
    # tanh图像
    x = torch.linspace(-20, 20, 1000)
    y = F.tanh(x)
    axes[0].plot(x, y)
    axes[0].grid()
    axes[0].set_title('tanh 函数')
    
    # 导函数图像
    x = torch.linspace(-20, 20, 1000, requires_grad=True)
    torch.tanh(x).sum().backward()
    axes[1].plot(x.detach(), x.grad)
    axes[1].grid()
    axes[1].set_title('tanh 导数')
    
    plt.show()
    
if __name__ == '__main__':
    test()

ReLu(最常用的)

简介

表达式：

f ( x ) = m a x ( 0 , x ) \mathrm{f(x)=max~(0,x)} f(x)=max (0,x)

图像：

分析：

当 x 值小于0的时候，映射成0，当 x 值大于 0 的时候，映射成它本身
运算简单，效率高，容易通过线性变换 和非线性变换拟合任何函数，最常用

导函数图像：

分析：

函数值小于0，则导函数为 0 ，函数值大于0，导数值为 1
ReLU 能够在x>0时保持梯度不衰减，从而缓解梯度消失问题。

缺点：

如果我们网络的参数采用随机初始化时，很多参数可能为负数，这就使得输入的正值会被舍去，而输入的负值则会保留，这可能在大部分的情况下并不是我们想要的结果
随着训练的推进，部分输入会落入小于0区域，导致对应权重无法更新。这种现象被称为"神经元死亡"

SoftMax

用于多分类题目

简介

表达式

s o f t m a x ( z i ) = e z i ∑ j e z j softmax(z_{i})=\frac{e^{z_{i}}}{\sum_{j}e^{z_{j}}} softmax(zi)=∑jezjezi

Softmax 直白来说就是将网络输出的 logits 通过 softmax函数，就映射成为(0,1)的值，而这些值的累和为1（满足概率的性质），那么我们将它理解成概率，选取概率最大（也就是值对应最大的）节点，作为我们的预测目标类别

pytorch代码

python 复制代码

import torch 

scores = torch.tensor([0.2, 0.02, 0.15, 0.15, 1.3, 0.5, 0.06, 1.1, 0.05, 3.75])
probabilities = torch.softmax(scores, dim=0)
print(probabilities)

3、总结

如何选取激活函数？

对于隐藏层：

优先选择RELU激活函数
如果ReLu效果不好，那么尝试其他激活，如Leaky ReLu等。
如果你使用了Relu，需要注意一下Dead Relu问题，避免出现大的梯度从而导致过多的神经元死亡。
不要使用sigmoid激活函数，可以尝试使用tanh激活函数

对于输出层：

二分类问题选择sigmoid激活函数
多分类问题选择softmax激活函数
回归问题选择identity激活函数

神经网络基础--什么是神经网络？？ 常用激活函数是什么？？？

神经网络

1、什么是神经网络

2、人工神经网络

3、总结

激活函数

1、非线性因素

2、常见的激活函数

sigmoid

简介

pytorch代码举例

tanh

简介

pytorch代码举例

ReLu(最常用的)

简介

SoftMax

简介

pytorch代码

3、总结

神经网络基础--什么是神经网络？？常用激活函数是什么？？？