神经网络复习

1 机器学习

1.1 定义

机器学习是人工智能的一个分支领域,它致力于让计算机系统能够自动从数据中学习规律,并利用这些规律对新的数据进行预测或决策,而无需显式地编写针对特定任务的规则。

1.2 分类

  • 全监督学习
    全监督学习是指在训练模型时,使用的数据集包含了输入特征以及与之对应的明确输出标签(也称为目标值)。模型通过学习输入特征与输出标签之间的映射关系,来对新的、未见过的数据进行预测。其核心特点是在学习过程中有明确的监督信号,即标签信息,模型可以根据这些标签来调整自身的参数,以最小化预测结果与真实标签之间的差异。
  • 少监督学习(少样本)
    半监督学习处于监督学习和无监督学习之间,它使用的数据集由一小部分标记数据和一大部分未标记数据组成。模型在训练过程中既要利用标记数据的标签信息,又要从未标记数据中挖掘潜在的模式和结构,以学习到更通用的特征表示,从而对新数据进行预测或分类。
  • 无监督学习(零样本)
    无监督学习是一种机器学习方法,它使用没有标记或目标变量的数据集进行训练。模型的目标是发现数据中的模式、结构或规律,而不需要事先知道数据的正确输出或类别。通过对数据的内在结构进行学习和分析,无监督学习算法可以将数据分组、降维或发现数据中的异常点等。

1.3 基本概念

数据集的划分(由你的实验决定)

  • 训练集:用于训练机器学习模型的数据集部分。模型通过在训练集上学习特征与标签之间的关系,调整自身的参数,以实现对数据的拟合和预测能力。通常占整个数据集的大部分,例如 70% - 80%。
  • 验证集:在模型训练过程中,用于验证模型性能和调整超参数的数据集。它可以帮助防止模型过拟合,通过在验证集上观察模型的表现,选择最优的模型结构和超参数组合。一般占数据集的 10% - 15%。

拟合问题

  • 欠拟合是指模型在训练数据上的表现不佳,未能充分学习到数据中的规律,导致模型的预测能力较差。简单来说,就是模型过于简单,无法捕捉到数据的复杂特征和关系。
  • 过拟合:过拟合是指模型在训练数据上表现得非常好,能够很好地拟合训练数据中的噪声和细节,但在新的测试数据或实际应用中表现不佳,即模型的泛化能力较差。

误差:我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误 差 "(error),学 习 器 在 训 练 集 上 的 误 差 称 为 "训 练 误 差 "(training error)或 "经验误差"(empirical error),在 新 样 本 上 的 误 差 称 为 "泛 化 误 差 "(generalization error)

2 神经网络

定义 :你可以理解为一种机器学习的算法或者模型,是通过线性层和非线性层的叠加来实现的。下面包含许多算法,比如是CNN,RNN以及Transfomer等.

2.1 前向传播

是指将输入数据从神经网络的输入层依次传递到输出层的过程。在这个过程中,数据通过各个隐藏层中的神经元进行处理,经过一系列的线性变换和非线性激活函数的作用,最终得到输出结果.

线性层: F=wx+b

:w为权重参数 b为偏置参数 .这些全由你所学的框架所提供初始化
激活函数
ReLU 激活函数定义与公式ReLU 是一种分段线性函数,其定义为: f ( x ) = max ⁡ ( 0 , x ) = { x , x ≥ 0 0 , x < 0 f(x) = \max(0, x) = \begin{cases} x, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)=max(0,x)={x,0,x≥0x<0
Tanh 激活函数 定义与公式Tanh 函数是一种双曲正切函数,其公式为:
f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x
归一化

  • 层归一化(Layer Normalization):层归一化是在每个样本的内部进行归一化,不依赖于其他样本,因此对于小批量数据也能有较好的归一化效果,在 RNN、LSTM 等处理序列数据的模型中表现良好
  • 样本归一化(Instance Normalization):够在归一化的同时,更好地保留每个样本的独特特征,对于一些需要强调样本个体差异的任务,如风格迁移,效果较好。

损失函数

交叉熵损失(Cross - Entropy Loss):

交叉熵损失函数是机器学习,尤其是分类任务中常用的损失函数。

对于多分类问题,假设共有C个类别,样本的真实标签是一个C维的独热编码向量 y = ( y 1 , y 2 , ⋯   , y C ) y=(y_1,y_2,\cdots,y_C) y=(y1,y2,⋯,yC),模型预测的概率分布为 y ^ = ( y ^ 1 , y ^ 2 , ⋯   , y ^ C ) \hat{y}=(\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_C) y^=(y^1,y^2,⋯,y^C),其中\hat{y}i)表示预测样本属于第i类的概率,且(\sum {i = 1}^{C}\hat{y}i=1),则交叉熵损失函数的公式为:(L = -\sum{i = 1}^{C}y_i\log\hat{y}_i)。

2. 2 反向传播(更新w和x)

学习率

学习率决定了在每次迭代中,模型参数沿着梯度方向更新的幅度。简单来说,它控制着模型学习的速度。如果把模型训练比作汽车行驶到目标地点,学习率就像是汽车的速度,它决定了模型以多快的速度到达最优解。
余弦退火策略

余弦退火策略(Cosine Annealing Schedule)是一种在深度学习中用于调整学习率的方法,它模拟了余弦函数的周期性变化来动态调整学习率,以提高模型的训练效果和收敛速度
优化器

定义:优化器是一种用于调整神经网络中参数(权重和偏置)的算法,其目的是最小化损失函数。通过计算损失函数关于参数的梯度,并根据梯度信息来更新参数,使得模型在训练过程中能够逐渐收敛到最优解或接近最优解的状态。
adamw

AdamW 是在 Adam 优化器的基础上进行改进的一种优化算法。它将权重衰减(weight decay)操作从损失函数中分离出来,直接在参数更新时进行,从而解决了 Adam 优化器在使用 L2 正则化时存在的问题,即权重衰减和自适应学习率调整之间的干扰

相关推荐
Jamence14 分钟前
多模态大语言模型arxiv论文略读(二十一)
人工智能·语言模型·自然语言处理
小白学C++.16 分钟前
大模型论文:Language Models are Unsupervised Multitask Learners(GPT2)
人工智能·语言模型·自然语言处理
Steve lu20 分钟前
PyTorch逻辑回归总结
人工智能·pytorch·python·深度学习·逻辑回归·原力计划
Steve lu28 分钟前
pytorch实现逻辑回归
人工智能·pytorch·python·深度学习·机器学习·自然语言处理·逻辑回归
xcSpark1 小时前
Python基础入门(二)
开发语言·人工智能·python
驼驼学编程1 小时前
目标检测与分割:深度学习在视觉中的应用
人工智能·深度学习·目标检测·计算机视觉
行走的bug...1 小时前
sklearn估计器和变换器共有的一些方法 待更新
人工智能·算法·sklearn
databook1 小时前
多变量决策树:机器学习中的“多面手”
python·机器学习·scikit-learn
学点技术儿2 小时前
理解什么是叶子张量和非叶子张量?
机器学习
LemonDu2 小时前
Cursor入门教程-JetBrains过度向
人工智能·后端