机器学习深度学习beginning2

1.Batch Size(批次大小)和Epoch(轮次):batch size是表示每个batch里装多少数据,epoch是表示将数据看完一遍。

Batch Size:过大,显存可能不够;梯度估计太准,可能导致泛化能力下降;Batch Normalization 效果会变差;过小,训练不稳定,震荡大;Batch Normalization 会失效。

Epoch:过大,过拟合;过小,欠拟合。

2.归一化

2.1 归一化通常指将数据变换到某个特定的范围(如 [0, 1])或分布形态(如均值为 0、方差为 1),以加速收敛、提高模型稳定性或消除量纲影响。

2.2 Batch Normalization(批归一化,简称 BN),核心目的是加速神经网络的训练过程,并提高模型的稳定性。因为在深层神经网络中,随着层数加深,每一层输入的分布会不断变化(因为前一层的参数在更新),所以会使用到BN,其通常在线性层(全连接/卷积)之后,激活函数之前用。

适用:CNN(常用)、MLP(常用),但对 batch size 敏感:太小(如 N<8N<8)时统计量不可靠,效果会下降。

2.3 Layer Normalization (层归一化,简称 LN),为了克服 BN 在 RNN 和小 batch 场景下的局限,可以使用LN。

适用:RNN、Transformer(常放在残差连接之前)、MLP(小 batch)。

2.4 Feature Normalization( 特征归一化),在数据预处理阶段对输入特征进行的缩放或标准化,

3.自适应学习率:不再使用固定的学习率,让学习率随着训练过程动态变化,可以为每一个参数(权重)单独维护一个学习率。

4.自注意力机制(Self-Attention):让序列中的每个元素(如每个单词)都去关注序列中的所有其他元素**,** 计算它们之间的相关性权重。即在处理一个词时,不仅看这个词本身,还要看句子中其他所有词与它的相关性。

4.1 工作原理:首先,每个输入词被转换为三个向量:Query (Q), Key (K), Value (V);然后,通过计算 Q 和 K 的点积,得到注意力分数(表示两个词的相关程度);最后,根据分数对 V 进行加权求和,得到该词的新表示。

4.2 优点:并行计算,不需要像 RNN 那样一步步算,所有词的注意力可以同时计算(极大提升训练速度);长距离依赖,无论两个词距离多远,它们之间的注意力路径长度都是 1(直接相连);可解释性,可以通过可视化注意力权重,看到模型在预测时"关注"了哪些词。

5.Transformer:主要用于处理序列数据(如文本、时间序列、音频等),核心机制采用自注意力机制(self-attention)。原始的transformer采用Encoder-Decoder(编码器-解码器)结构,该结构重要用于序列到序列(Sequuence-to-Sequence)的任务,Encoder主要"理解"输入,Decoder主要"生成"输出。

特性 Encoder-Decoder (原始 Transformer) Encoder-Only (如 BERT) Decoder-Only (如 GPT)
注意力机制 双向 (Enc) + 掩码单向 (Dec) + 交叉注意力 双向自注意力 掩码单向自注意力
主要任务 生成 + 理解 (翻译、摘要、问答) 理解 (分类、情感分析、填空) 生成 (写作、对话、代码)
输入输出 输入序列 → 输出不同序列 输入序列 → 标签/向量 输入序列 → 续写序列
典型模型 T5, BART, Whisper, Original Transformer BERT, RoBERTa, ViT GPT-3/4, LLaMA, Claude

6.多类别分类(Muti-class Classification):每个样本只属于一个类别,且类别总数大于 2(若等于 2 则为二分类)。

输出层:通常使用 Softmax 激活函数,将全连接层的输出转换为概率分布。

常用评价指标:
准确率 (Accuracy) :正确预测的样本数 / 总样本数。适用于类别平衡的场景。
混淆矩阵 (Confusion Matrix) :详细展示每个类别的预测情况。
精确率 (Precision)、召回率 (Recall)、F1-score :通常需要按类别计算,然后取宏平均 (macro)加权平均 (weighted) ,以应对类别不平衡。

应用场景:图像分类、文本分类、语言识别。

7.多标签分类(Muti-label Classification):每个样本可以属于多个类别,且类别之间不互斥。

输出层:每个标签对应一个输出节点,通常使用 Sigmoid 激活函数,将每个输出独立映射到 (0,1) 区间,表示该标签的预测概率。

常用评价指标:
准确率 (Accuracy) :预测正确的标签数 / 总标签数(含真实和预测)。
精确率 :正确预测的标签数 / 预测为正的标签总数。
召回率 :正确预测的标签数 / 真实的正标签总数。
F1-score :上述两者的调和平均。

应用场景:文本打标、图像标注、基因功能预测。

补充:
1.全连接层:每个输入神经元都与每个输出神经元相连的线性变换层,即输出向量的每一个元素,都是输入向量所有元素的加权和再加上一个偏置,因此称为"全连接"。主要用于分类头、特征融合。
2.混淆矩阵是一个 K×K 的矩阵,行表示真实类别,列表示预测类别。元素 Cij 表示真实类别为 ii且被预测为类别 j 的样本数。
对角线:正确分类的样本数。
非对角线:错误分类的情况(如类别 i 被误判为 j)。

相关推荐
码以致用2 小时前
GPT架构详解:从Transformer到大型语言模型
人工智能·深度学习·transformer
LDG_AGI2 小时前
【人工智能】OpenClaw(一):MacOS极简安装OpenClaw之Docker版
运维·人工智能·深度学习·机器学习·docker·容器·推荐算法
大写的z先生3 小时前
【深度学习 | 论文精读】Bi-GCN:社交媒体谣言检测的双向图卷积网络
深度学习·语言模型
lisw053 小时前
AI科学中奇点的概念、研究现状与展望!
人工智能·深度学习·机器学习
2601_950760793 小时前
FGF-basic蛋白的结构特征与生物学功能研究
人工智能·深度学习·蛋白
deephub4 小时前
TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention
人工智能·python·深度学习·tpu
人工智能培训4 小时前
少量样本下具身智能的新环境快速适应路径
人工智能·深度学习·机器学习
枫叶林FYL4 小时前
【脑电图信号自动睡眠分期(机器学习驱动睡眠质量评估)】第二章 应用场景拓展、可穿戴集成与临床转化挑战
人工智能·深度学习·机器学习
ejjdhdjdjdjdjjsl5 小时前
halcon算子(模板匹配)
人工智能·深度学习