如何训练神经网络--1

文章目录

前言
一、浅谈激活函数
- [1.sigmoid 函数](#1.sigmoid 函数)
- 2.tanh函数
- 3.RELU函数：
总结

前言

学海无涯，笔勤不辍...暑假过的也太懒惰了...没想到已经断更了一个多月了...笔者要好好反省自己，下次还敢 hhh

本阶段，笔者将更新一些ML/DL的相关知识，满满干货，快点赞收藏吧...(本文基于读者，对机器学习/神经网络/深度学习有一定的基础了解，直接上实操相关的知识...)

训练一个神经网络，最基本的要了解激活函数，预处理、权重设置、Btach normalization、评价模型、超参数优化

今天就浅浅谈一下激活函数(常见)的问题，以及在实践中用哪个激活函数比较好...

一、浅谈激活函数

1.sigmoid 函数

其公式为：f(x)= 1/(1+e^-x)

sigmoid函数存在的问题：

复制代码

1.可以发现，当input(x)是正数且特别大或者是负数且特别小，函数趋于平坦，梯度变得很小，即神经元趋于饱和，使得反向传播时，根据梯度对各超参数调整的幅度很小，很可能会发生"梯度消失"的问题
2.同时，经由sigmoid函数后，input(x)会被投影到(0,1)之间，这不是0对称的，也就是说，下一层的神经元的输入都是正的，这也使得超参数的梯度优化方向不是一直为正就是一直为负，这使得梯度下降/超参数优化变得困难..
3.因为要计算e/exp() 会消耗大量的计算资源...
```

2.tanh函数

其公式为：

可以看出，它在sigmoid函数基础上进行了改进，解决了非0中心的问题，能让输入的input(x)不全为正数，这比sigmoid是一个进步...

它的问题:

复制代码

1.与sigmoid函数相同，当输入的值为大的正数或小的负数，它在后向传播中可能会导致"梯度消失"问题
2.要计算e/exp() 消耗了计算机的算力资源

3.RELU函数：

其公式为：

可以很清楚的看见，当input(x)是正数时，它的梯度不会消失，一定程度上解决了梯度消失的问题

同时，它的运算是线性的，速度更快，在实际操作中，一般是sigmod/tanh 的六倍

但它同样存在问题，就是它没有0中心化...

RELU系列的激活函数是很多的...之后的就之后来更新吧...
实践中多使用RELU函数作为激活函数，可以尝试使用tanh或者其他RELU系列函数，不要用sigmoid函数！！！

总结

在训练神经网络时，激活函数最好使用RELU系列，一般是RELU函数...RELU函数能很好增加非线性，它在正数范围很好的克服了神经元的饱和问题，输入有不同能很直观的表现出来，能让更多信息进入下一层，使得神经网络更好地学习到现实世界的信息，更加贴合现实世界...但是RELU函数，可能会死亡，由于负输入会使得输出是0，影响参数的更新，导致神经元的失效...