女娲补天系列--深度学习

一、概述

1.机器学习：从有限的数据中推测规律，并用规律预测未来。

具体步骤：原始数据(数据收集) ->数据预处理 -->特征处理-->模型训练-->预测&结果

2.深度学习：需要经过多层特征转换得到一种特征表示，并用规律预测未来。【自动的】

具体步骤：原始数据(数据收集) ->底层-->中层-->高层->预测&结果

贡献度分配问题：深度学习是层层嵌套、高度非线性的，很难知道每个层度的贡献（重要性）

3.神经网络（深度学习的一种模型，易于解决贡献度分配问题）

三个层级：输入、隐藏 （可以多层）、输出

分类：前馈网络、记忆网络、图网络

二、前馈神经网络

1.人工神经元：一个简单的线性模型

激活函数：1.连续且可导的非线性函数 2.可以直接利用数值优化的方法来学习网络参数3.简单高效

4.导函数的值域要在一定的区间内5.单调递增

常见的激活函数：

激活函数	公式 / 范围	优点	缺点	适用场景
Sigmoid	1/(1+e−x)0~1	平滑、可输出概率	两端梯度饱和→梯度消失非零均值、收敛慢、计算贵	二分类输出层（少用）
Tanh	ex+e−xex−e−x-1~ 1	零均值、收敛比 sigmoid 快	依然梯度饱和 / 消失	早期 RNN、隐藏层过时
ReLU	max(0,x) 0~+∞	极快、简单正区梯度 = 1 缓解消失	负区硬饱和→神经元死亡非零均值	隐藏层通用首选
Leaky ReLU	max(αx,x)	缓解神经元死亡、保留负梯度	需调超参 α	防止 Dead ReLU
Softmax	归一化指数和为 1	输出标准概率分布	数值易不稳定类别不平衡尖锐	多分类最后一层
GELU/Swish	平滑非线性	梯度更稳、效果更强	计算略慢	Transformer、大模型

2.神经网络

定义：可以信息传递（连接主义模型 ）并行；通过误差反向传播改进学习能力

3.前馈神经网络（FNN）

特征：

1.各神经元分别属于不同的层，层内没有链接

2.相邻两层之间的神经元全部两两相连

3.整个网络之中无反馈，从输入层到输出层单向传播

4.每一层的神经元可以接收前一层神经元的信号，并产生信号到下一层

深层前馈神经网络

4.参数学习：梯度下降法

5.优化问题：

深度学习步骤：1.定义网络 2.损失函数 （误差）3.优化（参数、模型）

难点：1.参数多，解释困难 2.非凸优化问题（局部最优解）3.梯度消失问题

三、卷积神经网络

1.卷积：

用一个卷积核（滤波器）在图像上滑动，做加权求和。

作用：提取局部特征（边缘、纹理、形状）。

一维卷积：信号处理 y $i$ = w $k$ *x $i+k$

二维卷积：图像处理【卷积常作为特征提取的有效方法，一幅图像经过卷积后得到的结果常称为：特征映射】

卷积核：大小、步长：滑动时的时间间隔 **零填充：**两端补0

2.卷积神经网络（CNN）

一种具有局部链接、权重共享的深层前馈神经网络

构成：隐藏层===卷积层、汇聚层、全连接层

卷积层：特征提取卷积核：特征提取器

汇聚层：特征选择，降低特征数量，从而减少参数数量（池化层：pooling ）

3.常见的卷积神经网络：

LeNet-5：手写识别

AlexNet ：现代使用ReLU作为非线性激活函数、防止过拟合

Inception 网络

四、循环神经网络：

1.延时神经网络：建议一个额外的延时单元，用来存储网络的历史信息，在时间维度上共享全职，以降低参数数量。在前馈网络的非输出层都添加一个延时器

2.循环神经网络（RNN ）：通过使用带自反馈的神经元，能够处理任意长度的时序数据

3.简单循环网络（SRN）：只有一个隐藏层

应用：情感分类、中文分词、信息抽取（自然语言方面NLP）

长短期记忆网络：

1.梯度爆炸：深度网络反向传播时，梯度指数级增大，导致参数更新过大、训练崩溃。

梯度消失：梯度越来越小，趋近 0，网络学不动

2.长程依赖问题：RNN 处理长序列时，早期信息因梯度消失无法影响后续输出。

【类似读书读到后期，忘记了前面出现过的人物】

3.基于门控的神经网络：在普通 RNN 基础上，加入门控机制（Gate） ，用来控制信息的保留、遗忘、更新 ，解决 RNN 的梯度消失 和长程依赖问题。

长短期记忆网络：是一种改进型循环神经网络（RNN） ，专门解决普通 RNN 的梯度消失 和梯度爆炸**问题。**引入门控机制来控制信息的累计速度，包括有选择的加入新信息，有选择地以往之前积累的信息。

五、网络优化与正则化：

1.网络优化：找一个模型使经验或者结构风险最小化【模型选择、参数学习】

2.优化算法：梯度下降法：随机梯度下降、小批量梯度下降

方法	每次迭代用多少数据	优点	缺点	实际使用
批量梯度下降 BGD	全部样本	梯度准确、收敛稳定	速度极慢、占内存大、无法处理大数据	几乎不用
随机梯度下降 SGD	1 个样本	速度最快、易跳出局部最优	梯度噪声大、震荡严重、收敛不稳定	较少单独用
小批量梯度下降 MBGD	一小批样本（batch size）	速度快、梯度稳定、适合并行	需要调节 batch size	深度学习主流

3.数据预处理：

标准化：归一化（最大最小规范化）、Z-Score标准化。

分箱：建立分类模型时，将连续变量离散化，降低过拟合的风险

4.网络正则化：避免过拟合，提高泛化能力

正则化两种思路：

1.增加优化约束---》数据增强

2.干扰优化过程----》权重衰减、随机梯度下降、提前停止