神经网络复习

1 机器学习

1.1 定义

机器学习是人工智能的一个分支领域,它致力于让计算机系统能够自动从数据中学习规律,并利用这些规律对新的数据进行预测或决策,而无需显式地编写针对特定任务的规则。

1.2 分类

  • 全监督学习
    全监督学习是指在训练模型时,使用的数据集包含了输入特征以及与之对应的明确输出标签(也称为目标值)。模型通过学习输入特征与输出标签之间的映射关系,来对新的、未见过的数据进行预测。其核心特点是在学习过程中有明确的监督信号,即标签信息,模型可以根据这些标签来调整自身的参数,以最小化预测结果与真实标签之间的差异。
  • 少监督学习(少样本)
    半监督学习处于监督学习和无监督学习之间,它使用的数据集由一小部分标记数据和一大部分未标记数据组成。模型在训练过程中既要利用标记数据的标签信息,又要从未标记数据中挖掘潜在的模式和结构,以学习到更通用的特征表示,从而对新数据进行预测或分类。
  • 无监督学习(零样本)
    无监督学习是一种机器学习方法,它使用没有标记或目标变量的数据集进行训练。模型的目标是发现数据中的模式、结构或规律,而不需要事先知道数据的正确输出或类别。通过对数据的内在结构进行学习和分析,无监督学习算法可以将数据分组、降维或发现数据中的异常点等。

1.3 基本概念

数据集的划分(由你的实验决定)

  • 训练集:用于训练机器学习模型的数据集部分。模型通过在训练集上学习特征与标签之间的关系,调整自身的参数,以实现对数据的拟合和预测能力。通常占整个数据集的大部分,例如 70% - 80%。
  • 验证集:在模型训练过程中,用于验证模型性能和调整超参数的数据集。它可以帮助防止模型过拟合,通过在验证集上观察模型的表现,选择最优的模型结构和超参数组合。一般占数据集的 10% - 15%。

拟合问题

  • 欠拟合是指模型在训练数据上的表现不佳,未能充分学习到数据中的规律,导致模型的预测能力较差。简单来说,就是模型过于简单,无法捕捉到数据的复杂特征和关系。
  • 过拟合:过拟合是指模型在训练数据上表现得非常好,能够很好地拟合训练数据中的噪声和细节,但在新的测试数据或实际应用中表现不佳,即模型的泛化能力较差。

误差:我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误 差 "(error),学 习 器 在 训 练 集 上 的 误 差 称 为 "训 练 误 差 "(training error)或 "经验误差"(empirical error),在 新 样 本 上 的 误 差 称 为 "泛 化 误 差 "(generalization error)

2 神经网络

定义 :你可以理解为一种机器学习的算法或者模型,是通过线性层和非线性层的叠加来实现的。下面包含许多算法,比如是CNN,RNN以及Transfomer等.

2.1 前向传播

是指将输入数据从神经网络的输入层依次传递到输出层的过程。在这个过程中,数据通过各个隐藏层中的神经元进行处理,经过一系列的线性变换和非线性激活函数的作用,最终得到输出结果.

线性层: F=wx+b

:w为权重参数 b为偏置参数 .这些全由你所学的框架所提供初始化
激活函数
ReLU 激活函数定义与公式ReLU 是一种分段线性函数,其定义为: f ( x ) = max ⁡ ( 0 , x ) = { x , x ≥ 0 0 , x < 0 f(x) = \max(0, x) = \begin{cases} x, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)=max(0,x)={x,0,x≥0x<0
Tanh 激活函数 定义与公式Tanh 函数是一种双曲正切函数,其公式为:
f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x
归一化

  • 层归一化(Layer Normalization):层归一化是在每个样本的内部进行归一化,不依赖于其他样本,因此对于小批量数据也能有较好的归一化效果,在 RNN、LSTM 等处理序列数据的模型中表现良好
  • 样本归一化(Instance Normalization):够在归一化的同时,更好地保留每个样本的独特特征,对于一些需要强调样本个体差异的任务,如风格迁移,效果较好。

损失函数

交叉熵损失(Cross - Entropy Loss):

交叉熵损失函数是机器学习,尤其是分类任务中常用的损失函数。

对于多分类问题,假设共有C个类别,样本的真实标签是一个C维的独热编码向量 y = ( y 1 , y 2 , ⋯   , y C ) y=(y_1,y_2,\cdots,y_C) y=(y1,y2,⋯,yC),模型预测的概率分布为 y ^ = ( y ^ 1 , y ^ 2 , ⋯   , y ^ C ) \hat{y}=(\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_C) y^=(y^1,y^2,⋯,y^C),其中\hat{y}i)表示预测样本属于第i类的概率,且(\sum {i = 1}^{C}\hat{y}i=1),则交叉熵损失函数的公式为:(L = -\sum{i = 1}^{C}y_i\log\hat{y}_i)。

2. 2 反向传播(更新w和x)

学习率

学习率决定了在每次迭代中,模型参数沿着梯度方向更新的幅度。简单来说,它控制着模型学习的速度。如果把模型训练比作汽车行驶到目标地点,学习率就像是汽车的速度,它决定了模型以多快的速度到达最优解。
余弦退火策略

余弦退火策略(Cosine Annealing Schedule)是一种在深度学习中用于调整学习率的方法,它模拟了余弦函数的周期性变化来动态调整学习率,以提高模型的训练效果和收敛速度
优化器

定义:优化器是一种用于调整神经网络中参数(权重和偏置)的算法,其目的是最小化损失函数。通过计算损失函数关于参数的梯度,并根据梯度信息来更新参数,使得模型在训练过程中能够逐渐收敛到最优解或接近最优解的状态。
adamw

AdamW 是在 Adam 优化器的基础上进行改进的一种优化算法。它将权重衰减(weight decay)操作从损失函数中分离出来,直接在参数更新时进行,从而解决了 Adam 优化器在使用 L2 正则化时存在的问题,即权重衰减和自适应学习率调整之间的干扰

相关推荐
Daemon1 分钟前
AI Agent系列记录(第二篇)
前端·人工智能·后端
咚咚王者1 分钟前
人工智能之知识处理 知识推理 第六章 综合实践与总结
人工智能
wincheshe2 分钟前
AI Agent 的自进化实践
人工智能
用户5191495848455 分钟前
RenderTune RCE 漏洞利用演示 - XSS到远程代码执行
人工智能·aigc
佳木逢钺8 分钟前
太宗多维评估模型:用50个变量数学建模唐太宗,探索历史与AI的跨界融合
人工智能·数学建模
GIS数据转换器9 分钟前
车辆监控管理系统
人工智能·3d·无人机·知识图谱·旅游
呆码科技9 分钟前
数据驱动决策:商贸物流软件的数据分析与预测功能
大数据·人工智能
低空闲话与AI杂谈9 分钟前
OpenClaw 多飞书机器人完整配置教程(Docker 部署版)
人工智能
xcbrand9 分钟前
专精特新品牌全案公司有哪些
大数据·人工智能·python
波动几何10 分钟前
五层能力架构全景
人工智能