机器学习深度学习beginning2

1.Batch Size(批次大小)和Epoch(轮次):batch size是表示每个batch里装多少数据,epoch是表示将数据看完一遍。

Batch Size:过大,显存可能不够;梯度估计太准,可能导致泛化能力下降;Batch Normalization 效果会变差;过小,训练不稳定,震荡大;Batch Normalization 会失效。

Epoch:过大,过拟合;过小,欠拟合。

2.归一化

2.1 归一化通常指将数据变换到某个特定的范围(如 0, 1)或分布形态(如均值为 0、方差为 1),以加速收敛、提高模型稳定性或消除量纲影响。

2.2 Batch Normalization(批归一化,简称 BN),核心目的是加速神经网络的训练过程,并提高模型的稳定性。因为在深层神经网络中,随着层数加深,每一层输入的分布会不断变化(因为前一层的参数在更新),所以会使用到BN,其通常在线性层(全连接/卷积)之后,激活函数之前用。

适用:CNN(常用)、MLP(常用),但对 batch size 敏感:太小(如 N<8N<8)时统计量不可靠,效果会下降。

2.3 Layer Normalization (层归一化,简称 LN),为了克服 BN 在 RNN 和小 batch 场景下的局限,可以使用LN。

适用:RNN、Transformer(常放在残差连接之前)、MLP(小 batch)。

2.4 Feature Normalization( 特征归一化),在数据预处理阶段对输入特征进行的缩放或标准化,

3.自适应学习率:不再使用固定的学习率,让学习率随着训练过程动态变化,可以为每一个参数(权重)单独维护一个学习率。

4.自注意力机制(Self-Attention):让序列中的每个元素(如每个单词)都去关注序列中的所有其他元素**,** 计算它们之间的相关性权重。即在处理一个词时,不仅看这个词本身,还要看句子中其他所有词与它的相关性。

4.1 工作原理:首先,每个输入词被转换为三个向量:Query (Q), Key (K), Value (V);然后,通过计算 Q 和 K 的点积,得到注意力分数(表示两个词的相关程度);最后,根据分数对 V 进行加权求和,得到该词的新表示。

4.2 优点:并行计算,不需要像 RNN 那样一步步算,所有词的注意力可以同时计算(极大提升训练速度);长距离依赖,无论两个词距离多远,它们之间的注意力路径长度都是 1(直接相连);可解释性,可以通过可视化注意力权重,看到模型在预测时"关注"了哪些词。

5.Transformer:主要用于处理序列数据(如文本、时间序列、音频等),核心机制采用自注意力机制(self-attention)。原始的transformer采用Encoder-Decoder(编码器-解码器)结构,该结构重要用于序列到序列(Sequuence-to-Sequence)的任务,Encoder主要"理解"输入,Decoder主要"生成"输出。

特性 Encoder-Decoder (原始 Transformer) Encoder-Only (如 BERT) Decoder-Only (如 GPT)
注意力机制 双向 (Enc) + 掩码单向 (Dec) + 交叉注意力 双向自注意力 掩码单向自注意力
主要任务 生成 + 理解 (翻译、摘要、问答) 理解 (分类、情感分析、填空) 生成 (写作、对话、代码)
输入输出 输入序列 → 输出不同序列 输入序列 → 标签/向量 输入序列 → 续写序列
典型模型 T5, BART, Whisper, Original Transformer BERT, RoBERTa, ViT GPT-3/4, LLaMA, Claude

6.多类别分类(Muti-class Classification):每个样本只属于一个类别,且类别总数大于 2(若等于 2 则为二分类)。

输出层:通常使用 Softmax 激活函数,将全连接层的输出转换为概率分布。

常用评价指标:
准确率 (Accuracy) :正确预测的样本数 / 总样本数。适用于类别平衡的场景。
混淆矩阵 (Confusion Matrix) :详细展示每个类别的预测情况。
精确率 (Precision)、召回率 (Recall)、F1-score :通常需要按类别计算,然后取宏平均 (macro)加权平均 (weighted) ,以应对类别不平衡。

应用场景:图像分类、文本分类、语言识别。

7.多标签分类(Muti-label Classification):每个样本可以属于多个类别,且类别之间不互斥。

输出层:每个标签对应一个输出节点,通常使用 Sigmoid 激活函数,将每个输出独立映射到 (0,1) 区间,表示该标签的预测概率。

常用评价指标:
准确率 (Accuracy) :预测正确的标签数 / 总标签数(含真实和预测)。
精确率 :正确预测的标签数 / 预测为正的标签总数。
召回率 :正确预测的标签数 / 真实的正标签总数。
F1-score :上述两者的调和平均。

应用场景:文本打标、图像标注、基因功能预测。

补充:
1.全连接层:每个输入神经元都与每个输出神经元相连的线性变换层,即输出向量的每一个元素,都是输入向量所有元素的加权和再加上一个偏置,因此称为"全连接"。主要用于分类头、特征融合。
2.混淆矩阵是一个 K×K 的矩阵,行表示真实类别,列表示预测类别。元素 Cij 表示真实类别为 ii且被预测为类别 j 的样本数。
对角线:正确分类的样本数。
非对角线:错误分类的情况(如类别 i 被误判为 j)。

相关推荐
weixin_468466851 天前
迁移学习落地实战:从场景匹配到价值验证
人工智能·深度学习·机器学习·迁移学习·模型训练·小样本
有为少年1 天前
深度隐式层 | 深度平衡模型 (Deep Equilibrium, DEQ)
人工智能·深度学习·神经网络·机器学习
君为先-bey1 天前
GaussianAnything—— 交互式点云潜在扩散的3D生成
深度学习·3d·扩散模型·三维点云
徐安安ye1 天前
FlashAttention输出全是NaN?数值问题排查指南
人工智能·深度学习·机器学习
一切皆是因缘际会1 天前
从模型竞赛到全域智能的时代跃迁
人工智能·深度学习·ai·分布式系统
极光代码工作室1 天前
基于NLP的招聘信息关键词分析系统
python·深度学习·自然语言处理·nlp
锦鲤52141 天前
深度学习与神经网络学习
深度学习·神经网络·学习
weixin_468466851 天前
PyTorch 与 TensorFlow 实战选型与应用场景指南
人工智能·pytorch·深度学习·算法·机器学习·tensorflow·深度学习框架
生成论实验室1 天前
降U定律:宇宙认知动力学第一定律
人工智能·深度学习·语言模型·机器人·自动驾驶
yanxiaoyu1101 天前
小白学习深度学习、强化学习的相关重要内容
人工智能·深度学习·学习