神经网络复习

1 机器学习

1.1 定义

机器学习是人工智能的一个分支领域,它致力于让计算机系统能够自动从数据中学习规律,并利用这些规律对新的数据进行预测或决策,而无需显式地编写针对特定任务的规则。

1.2 分类

  • 全监督学习
    全监督学习是指在训练模型时,使用的数据集包含了输入特征以及与之对应的明确输出标签(也称为目标值)。模型通过学习输入特征与输出标签之间的映射关系,来对新的、未见过的数据进行预测。其核心特点是在学习过程中有明确的监督信号,即标签信息,模型可以根据这些标签来调整自身的参数,以最小化预测结果与真实标签之间的差异。
  • 少监督学习(少样本)
    半监督学习处于监督学习和无监督学习之间,它使用的数据集由一小部分标记数据和一大部分未标记数据组成。模型在训练过程中既要利用标记数据的标签信息,又要从未标记数据中挖掘潜在的模式和结构,以学习到更通用的特征表示,从而对新数据进行预测或分类。
  • 无监督学习(零样本)
    无监督学习是一种机器学习方法,它使用没有标记或目标变量的数据集进行训练。模型的目标是发现数据中的模式、结构或规律,而不需要事先知道数据的正确输出或类别。通过对数据的内在结构进行学习和分析,无监督学习算法可以将数据分组、降维或发现数据中的异常点等。

1.3 基本概念

数据集的划分(由你的实验决定)

  • 训练集:用于训练机器学习模型的数据集部分。模型通过在训练集上学习特征与标签之间的关系,调整自身的参数,以实现对数据的拟合和预测能力。通常占整个数据集的大部分,例如 70% - 80%。
  • 验证集:在模型训练过程中,用于验证模型性能和调整超参数的数据集。它可以帮助防止模型过拟合,通过在验证集上观察模型的表现,选择最优的模型结构和超参数组合。一般占数据集的 10% - 15%。

拟合问题

  • 欠拟合是指模型在训练数据上的表现不佳,未能充分学习到数据中的规律,导致模型的预测能力较差。简单来说,就是模型过于简单,无法捕捉到数据的复杂特征和关系。
  • 过拟合:过拟合是指模型在训练数据上表现得非常好,能够很好地拟合训练数据中的噪声和细节,但在新的测试数据或实际应用中表现不佳,即模型的泛化能力较差。

误差:我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误 差 "(error),学 习 器 在 训 练 集 上 的 误 差 称 为 "训 练 误 差 "(training error)或 "经验误差"(empirical error),在 新 样 本 上 的 误 差 称 为 "泛 化 误 差 "(generalization error)

2 神经网络

定义 :你可以理解为一种机器学习的算法或者模型,是通过线性层和非线性层的叠加来实现的。下面包含许多算法,比如是CNN,RNN以及Transfomer等.

2.1 前向传播

是指将输入数据从神经网络的输入层依次传递到输出层的过程。在这个过程中,数据通过各个隐藏层中的神经元进行处理,经过一系列的线性变换和非线性激活函数的作用,最终得到输出结果.

线性层: F=wx+b

:w为权重参数 b为偏置参数 .这些全由你所学的框架所提供初始化
激活函数
ReLU 激活函数定义与公式ReLU 是一种分段线性函数,其定义为: f ( x ) = max ⁡ ( 0 , x ) = { x , x ≥ 0 0 , x < 0 f(x) = \max(0, x) = \begin{cases} x, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)=max(0,x)={x,0,x≥0x<0
Tanh 激活函数 定义与公式Tanh 函数是一种双曲正切函数,其公式为:
f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x
归一化

  • 层归一化(Layer Normalization):层归一化是在每个样本的内部进行归一化,不依赖于其他样本,因此对于小批量数据也能有较好的归一化效果,在 RNN、LSTM 等处理序列数据的模型中表现良好
  • 样本归一化(Instance Normalization):够在归一化的同时,更好地保留每个样本的独特特征,对于一些需要强调样本个体差异的任务,如风格迁移,效果较好。

损失函数

交叉熵损失(Cross - Entropy Loss):

交叉熵损失函数是机器学习,尤其是分类任务中常用的损失函数。

对于多分类问题,假设共有C个类别,样本的真实标签是一个C维的独热编码向量 y = ( y 1 , y 2 , ⋯   , y C ) y=(y_1,y_2,\cdots,y_C) y=(y1,y2,⋯,yC),模型预测的概率分布为 y ^ = ( y ^ 1 , y ^ 2 , ⋯   , y ^ C ) \hat{y}=(\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_C) y^=(y^1,y^2,⋯,y^C),其中\hat{y}i)表示预测样本属于第i类的概率,且(\sum {i = 1}^{C}\hat{y}i=1),则交叉熵损失函数的公式为:(L = -\sum{i = 1}^{C}y_i\log\hat{y}_i)。

2. 2 反向传播(更新w和x)

学习率

学习率决定了在每次迭代中,模型参数沿着梯度方向更新的幅度。简单来说,它控制着模型学习的速度。如果把模型训练比作汽车行驶到目标地点,学习率就像是汽车的速度,它决定了模型以多快的速度到达最优解。
余弦退火策略

余弦退火策略(Cosine Annealing Schedule)是一种在深度学习中用于调整学习率的方法,它模拟了余弦函数的周期性变化来动态调整学习率,以提高模型的训练效果和收敛速度
优化器

定义:优化器是一种用于调整神经网络中参数(权重和偏置)的算法,其目的是最小化损失函数。通过计算损失函数关于参数的梯度,并根据梯度信息来更新参数,使得模型在训练过程中能够逐渐收敛到最优解或接近最优解的状态。
adamw

AdamW 是在 Adam 优化器的基础上进行改进的一种优化算法。它将权重衰减(weight decay)操作从损失函数中分离出来,直接在参数更新时进行,从而解决了 Adam 优化器在使用 L2 正则化时存在的问题,即权重衰减和自适应学习率调整之间的干扰

相关推荐
leafff1231 小时前
一文了解LLM应用架构:从Prompt到Multi-Agent
人工智能·架构·prompt
无风听海1 小时前
神经网络之特征值与特征向量
人工智能·深度学习·神经网络
艾莉丝努力练剑1 小时前
【C++:红黑树】深入理解红黑树的平衡之道:从原理、变色、旋转到完整实现代码
大数据·开发语言·c++·人工智能·红黑树
九章云极AladdinEdu1 小时前
论文分享 | BARD-GS:基于高斯泼溅的模糊感知动态场景重建
人工智能·新视角合成·动态场景重建·运动模糊处理·3d高斯泼溅·模糊感知建模·真实世界数据集
希露菲叶特格雷拉特2 小时前
PyTorch深度学习笔记(二十)(模型验证测试)
人工智能·pytorch·笔记
NewsMash2 小时前
PyTorch之父发离职长文,告别Meta
人工智能·pytorch·python
IT_陈寒2 小时前
Python 3.12新特性实测:10个让你的代码提速30%的隐藏技巧 🚀
前端·人工智能·后端
Ztop2 小时前
GPT-5.1 已确认!OpenAI下一步推理升级?对决 Gemini 3 在即
人工智能·gpt·chatgpt
qq_436962182 小时前
奥威BI:打破数据分析的桎梏,让决策更自由
人工智能·数据挖掘·数据分析
金融Tech趋势派2 小时前
金融机构如何用企业微信实现客户服务优化?
大数据·人工智能·金融·企业微信·企业微信scrm