神经网络复习

1 机器学习

1.1 定义

机器学习是人工智能的一个分支领域，它致力于让计算机系统能够自动从数据中学习规律，并利用这些规律对新的数据进行预测或决策，而无需显式地编写针对特定任务的规则。

1.2 分类

全监督学习
全监督学习是指在训练模型时，使用的数据集包含了输入特征以及与之对应的明确输出标签（也称为目标值）。模型通过学习输入特征与输出标签之间的映射关系，来对新的、未见过的数据进行预测。其核心特点是在学习过程中有明确的监督信号，即标签信息，模型可以根据这些标签来调整自身的参数，以最小化预测结果与真实标签之间的差异。
少监督学习（少样本）
半监督学习处于监督学习和无监督学习之间，它使用的数据集由一小部分标记数据和一大部分未标记数据组成。模型在训练过程中既要利用标记数据的标签信息，又要从未标记数据中挖掘潜在的模式和结构，以学习到更通用的特征表示，从而对新数据进行预测或分类。
无监督学习(零样本)
无监督学习是一种机器学习方法，它使用没有标记或目标变量的数据集进行训练。模型的目标是发现数据中的模式、结构或规律，而不需要事先知道数据的正确输出或类别。通过对数据的内在结构进行学习和分析，无监督学习算法可以将数据分组、降维或发现数据中的异常点等。

1.3 基本概念

数据集的划分（由你的实验决定）

训练集：用于训练机器学习模型的数据集部分。模型通过在训练集上学习特征与标签之间的关系，调整自身的参数，以实现对数据的拟合和预测能力。通常占整个数据集的大部分，例如 70% - 80%。
验证集：在模型训练过程中，用于验证模型性能和调整超参数的数据集。它可以帮助防止模型过拟合，通过在验证集上观察模型的表现，选择最优的模型结构和超参数组合。一般占数据集的 10% - 15%。

拟合问题

欠拟合是指模型在训练数据上的表现不佳，未能充分学习到数据中的规律，导致模型的预测能力较差。简单来说，就是模型过于简单，无法捕捉到数据的复杂特征和关系。
过拟合：过拟合是指模型在训练数据上表现得非常好，能够很好地拟合训练数据中的噪声和细节，但在新的测试数据或实际应用中表现不佳，即模型的泛化能力较差。

误差：我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差 "(error),学习器在训练集上的误差称为 "训练误差 "(training error)或 "经验误差"(empirical error),在新样本上的误差称为 "泛化误差 "(generalization error）

2 神经网络

定义：你可以理解为一种机器学习的算法或者模型，是通过线性层和非线性层的叠加来实现的。下面包含许多算法，比如是CNN，RNN以及Transfomer等.

2.1 前向传播

是指将输入数据从神经网络的输入层依次传递到输出层的过程。在这个过程中，数据通过各个隐藏层中的神经元进行处理，经过一系列的线性变换和非线性激活函数的作用，最终得到输出结果.

线性层： F=wx+b

:w为权重参数 b为偏置参数 .这些全由你所学的框架所提供初始化
激活函数 ：
ReLU 激活函数定义与公式ReLU 是一种分段线性函数，其定义为： f ( x ) = max ⁡ ( 0 , x ) = { x , x ≥ 0 0 , x < 0 f(x) = \max(0, x) = \begin{cases} x, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)=max(0,x)={x,0,x≥0x<0
Tanh 激活函数 定义与公式Tanh 函数是一种双曲正切函数，其公式为：
f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x
归一化

层归一化（Layer Normalization）：层归一化是在每个样本的内部进行归一化，不依赖于其他样本，因此对于小批量数据也能有较好的归一化效果，在 RNN、LSTM 等处理序列数据的模型中表现良好
样本归一化（Instance Normalization）：够在归一化的同时，更好地保留每个样本的独特特征，对于一些需要强调样本个体差异的任务，如风格迁移，效果较好。

损失函数

交叉熵损失（Cross - Entropy Loss）：

交叉熵损失函数是机器学习，尤其是分类任务中常用的损失函数。

对于多分类问题，假设共有C个类别，样本的真实标签是一个C维的独热编码向量 y = ( y 1 , y 2 , ⋯ , y C ) y=(y_1,y_2,\cdots,y_C) y=(y1,y2,⋯,yC)，模型预测的概率分布为 y ^ = ( y ^ 1 , y ^ 2 , ⋯ , y ^ C ) \hat{y}=(\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_C) y^=(y^1,y^2,⋯,y^C)，其中\hat{y}i)表示预测样本属于第i类的概率，且(\sum {i = 1}^{C}\hat{y}i=1)，则交叉熵损失函数的公式为：(L = -\sum{i = 1}^{C}y_i\log\hat{y}_i)。

2. 2 反向传播(更新w和x)

学习率

学习率决定了在每次迭代中，模型参数沿着梯度方向更新的幅度。简单来说，它控制着模型学习的速度。如果把模型训练比作汽车行驶到目标地点，学习率就像是汽车的速度，它决定了模型以多快的速度到达最优解。
余弦退火策略

余弦退火策略（Cosine Annealing Schedule）是一种在深度学习中用于调整学习率的方法，它模拟了余弦函数的周期性变化来动态调整学习率，以提高模型的训练效果和收敛速度
优化器

定义：优化器是一种用于调整神经网络中参数（权重和偏置）的算法，其目的是最小化损失函数。通过计算损失函数关于参数的梯度，并根据梯度信息来更新参数，使得模型在训练过程中能够逐渐收敛到最优解或接近最优解的状态。
adamw

AdamW 是在 Adam 优化器的基础上进行改进的一种优化算法。它将权重衰减（weight decay）操作从损失函数中分离出来，直接在参数更新时进行，从而解决了 Adam 优化器在使用 L2 正则化时存在的问题，即权重衰减和自适应学习率调整之间的干扰