神经网络相关概念

读论文的方法：

1.title

2.abstract

3.introduction

4.method

5.experiments

6.conclusion

第一遍：标题、摘要、结论。可以看一看方法和实验部分重要的图和表。这样可以花费十几分钟时间了解到论文是否适合你的研究方向。

第二遍：确定论文值得读之后，可以快速的把整个论文过一遍，不需要知道所有的细节，需要了解重要的图和表，知道每一个部分在干什么，圈出相关文献。觉得文章太难，可以读引用的文献。

第三遍：提出什么问题，用什么方法来解决这个问题。实验是怎么做的。合上文章，回忆每一个部分在讲什么。

一概念

1.激活函数使函数从线性到非线性的辅助工具

2.神经元：某个输入或输出

3.神经元扩展与隐藏层：每套一层线性变换，神经元水平方向就扩展一层，扩展后中间层(原输出层)不再是最后的输出层，包含在复杂的函数变换之中，成为隐藏层

x1与x2经过一次线性变换后，再套一层激活函数得到隐藏层，隐藏层再经过一次线性变换，套一层激活函数得到输出层

4.神经网络:输入层-隐藏层-输出层这样一个结构叫神经网络

5.神经网络的前向传播：从输入层到隐藏层再到输出层的这样一个函数计算流程就是前向传播

6.神经网络的本质就是经过不断的线性变换和激活函数得到复杂的非线性函数，通过计算出非线性函数中的参数w和b，使得函数更好的拟合真是数据。

7.损失函数L：n个预测数据与真实数据的误差绝对值的和

均方误差MSE(损失函数的一种)：L(w,b)＝n个（预测数据与真实数据的误差）²的和，除以n

目标：求解让L最小的w和b的值

8.梯度下降

损失函数的导数＝0可得到w b，但是神经网络比较复杂，只能通过不断调整w b等参数来逼近真实答案，调整的过程叫梯度下降

w/b的偏导指的是随着单一变量w/b的变化，L的变化率。

为了使得损失变小，要让w b往偏导数的反方向变化，这是因为偏导为正，说明随着 w/b的增加，损失增大，偏导为负，说明随着 w/b的增加，损失减小。

为了让损失一直变小，需要使得

w/b➕(➖w/b的偏导)，如w＝w-w的偏导。

为了控制变化的快慢，在w的偏导数前加一个系数η，w＝w-ηw的偏导，这个过程叫梯度下降。

9.反向传播：直接求偏导很困难，需要从输出层开始，利用链式法则逐层求导，计算损失函数对每个参数（权重 w、偏置 b）的偏导数（即梯度），得到每个参数对损失的"影响程度"。

10.神经网络的一次训练：前向传播-计算损失-反向传播-更新参数(每个参数都朝着梯度的反方向变化)。因此训练过程就是不断调整参数的过程。

11.过拟合：训练数据上表现好，测试数据表现糟糕。

12.泛化能力：在没见过的数据上的表现能力。

13.数据增强：通过对图像裁剪翻转加噪声等操作在原有的数据中创造更多图像数据，这样不仅增加了数据，还增强了模型鲁棒性。

14.鲁棒性：不因为小的变化而对模型产生较大影响。

15.过拟合优化:增加数据(如数据增强)，早停(提前终止训练过程防止过分拟合)，正则化，dropout(训练时随机丢弃一些参数，避免过度依赖部分参数)

16.正则化：向损失函数中添加权重惩罚性抑制损失函数野蛮生长的方法

L1正则化:新损失函数＝损失函数➕λ参数w绝对值的和

L2正则化:新损失函数＝损失函数➕λ参数w平方的和

w是模型权重，λ是正则化强度，偏置b由于对模型复杂度影响很小一般不参数正则化，惩罚它很可能导致欠拟合。

λ越大，w就会被限制的越小，

控制参数的参数叫超参数

绝对值之和叫L1范数，平方和的平方根要L2范数

17.其它模型训练过程中遇到的问题和解决方法

梯度消失：梯度反向传播时越来越小导致参数更新困难

梯度爆炸：梯度数值越来越大，导致参数的调整幅度失去控制

解决：用梯度裁剪防止梯度更新过大；用合理的网络结构如残差网络来防止深层网络的梯度衰减；用合理的权重初始化和将输入数据归一化让梯度分布更平滑

收敛速度过慢：陷入局部最优和来回震荡

用动量法、RMSProp、Adam等自适应优化器来加速收敛，减少震荡

计算开销过大：数据规模太大，每次训练太耗时

用mini-batch把巨量的训练数据分割成小批次来减少单个的训练开销

18.全连接层FC:当前层的每个神经元与上一层的所有神经元都存在连接

19.卷积核：传统的卷积核是已知的固定矩阵，可以实现模糊效果、锐化效果、轮廓效果等；深度学习领域的卷积核是未知的，是被训练出来的。

卷积层相当于用一个卷积核替换掉全连接层的其中一层，大大减少权重参数量，同时更能捕捉图片的局部特征。

为什么说更能捕捉图片的局部特征？

卷积核的大小远小于输入图像，每个卷积核只和输入图像的局部区域连接。比如用 3×3 卷积核扫描 32×32

图片，每个卷积核每次只依赖图片中3×3=9 个相邻像素（比如 3×3

区域内的像素灰度变化→边缘特征），输出一个特征值，能精准捕捉局部特征（边缘、纹理等）

32×32的图片，如果全连接层要输出 32×32=1024 个特征（和卷积层输出尺寸一致）：

每个输出特征（神经元）都要和 1024 个输入像素全连接 → 每个输出对应 1024 个权重；

总参数量 = 1024（输出数）× 1024（输入数）= 1,048,576 个权重（还没算偏置）。

而卷积层只需要卷积核大小，也就是9个权重。