机器学习深度学习beginning2

1.Batch Size(批次大小)和Epoch(轮次):batch size是表示每个batch里装多少数据,epoch是表示将数据看完一遍。

Batch Size:过大,显存可能不够;梯度估计太准,可能导致泛化能力下降;Batch Normalization 效果会变差;过小,训练不稳定,震荡大;Batch Normalization 会失效。

Epoch:过大,过拟合;过小,欠拟合。

2.归一化

2.1 归一化通常指将数据变换到某个特定的范围(如 0, 1)或分布形态(如均值为 0、方差为 1),以加速收敛、提高模型稳定性或消除量纲影响。

2.2 Batch Normalization(批归一化,简称 BN),核心目的是加速神经网络的训练过程,并提高模型的稳定性。因为在深层神经网络中,随着层数加深,每一层输入的分布会不断变化(因为前一层的参数在更新),所以会使用到BN,其通常在线性层(全连接/卷积)之后,激活函数之前用。

适用:CNN(常用)、MLP(常用),但对 batch size 敏感:太小(如 N<8N<8)时统计量不可靠,效果会下降。

2.3 Layer Normalization (层归一化,简称 LN),为了克服 BN 在 RNN 和小 batch 场景下的局限,可以使用LN。

适用:RNN、Transformer(常放在残差连接之前)、MLP(小 batch)。

2.4 Feature Normalization( 特征归一化),在数据预处理阶段对输入特征进行的缩放或标准化,

3.自适应学习率:不再使用固定的学习率,让学习率随着训练过程动态变化,可以为每一个参数(权重)单独维护一个学习率。

4.自注意力机制(Self-Attention):让序列中的每个元素(如每个单词)都去关注序列中的所有其他元素**,** 计算它们之间的相关性权重。即在处理一个词时,不仅看这个词本身,还要看句子中其他所有词与它的相关性。

4.1 工作原理:首先,每个输入词被转换为三个向量:Query (Q), Key (K), Value (V);然后,通过计算 Q 和 K 的点积,得到注意力分数(表示两个词的相关程度);最后,根据分数对 V 进行加权求和,得到该词的新表示。

4.2 优点:并行计算,不需要像 RNN 那样一步步算,所有词的注意力可以同时计算(极大提升训练速度);长距离依赖,无论两个词距离多远,它们之间的注意力路径长度都是 1(直接相连);可解释性,可以通过可视化注意力权重,看到模型在预测时"关注"了哪些词。

5.Transformer:主要用于处理序列数据(如文本、时间序列、音频等),核心机制采用自注意力机制(self-attention)。原始的transformer采用Encoder-Decoder(编码器-解码器)结构,该结构重要用于序列到序列(Sequuence-to-Sequence)的任务,Encoder主要"理解"输入,Decoder主要"生成"输出。

特性 Encoder-Decoder (原始 Transformer) Encoder-Only (如 BERT) Decoder-Only (如 GPT)
注意力机制 双向 (Enc) + 掩码单向 (Dec) + 交叉注意力 双向自注意力 掩码单向自注意力
主要任务 生成 + 理解 (翻译、摘要、问答) 理解 (分类、情感分析、填空) 生成 (写作、对话、代码)
输入输出 输入序列 → 输出不同序列 输入序列 → 标签/向量 输入序列 → 续写序列
典型模型 T5, BART, Whisper, Original Transformer BERT, RoBERTa, ViT GPT-3/4, LLaMA, Claude

6.多类别分类(Muti-class Classification):每个样本只属于一个类别,且类别总数大于 2(若等于 2 则为二分类)。

输出层:通常使用 Softmax 激活函数,将全连接层的输出转换为概率分布。

常用评价指标:
准确率 (Accuracy) :正确预测的样本数 / 总样本数。适用于类别平衡的场景。
混淆矩阵 (Confusion Matrix) :详细展示每个类别的预测情况。
精确率 (Precision)、召回率 (Recall)、F1-score :通常需要按类别计算,然后取宏平均 (macro)加权平均 (weighted) ,以应对类别不平衡。

应用场景:图像分类、文本分类、语言识别。

7.多标签分类(Muti-label Classification):每个样本可以属于多个类别,且类别之间不互斥。

输出层:每个标签对应一个输出节点,通常使用 Sigmoid 激活函数,将每个输出独立映射到 (0,1) 区间,表示该标签的预测概率。

常用评价指标:
准确率 (Accuracy) :预测正确的标签数 / 总标签数(含真实和预测)。
精确率 :正确预测的标签数 / 预测为正的标签总数。
召回率 :正确预测的标签数 / 真实的正标签总数。
F1-score :上述两者的调和平均。

应用场景:文本打标、图像标注、基因功能预测。

补充:
1.全连接层:每个输入神经元都与每个输出神经元相连的线性变换层,即输出向量的每一个元素,都是输入向量所有元素的加权和再加上一个偏置,因此称为"全连接"。主要用于分类头、特征融合。
2.混淆矩阵是一个 K×K 的矩阵,行表示真实类别,列表示预测类别。元素 Cij 表示真实类别为 ii且被预测为类别 j 的样本数。
对角线:正确分类的样本数。
非对角线:错误分类的情况(如类别 i 被误判为 j)。

相关推荐
饼干哥哥5 小时前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康2 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康3 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai49 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia19 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC9 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java9 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba9 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习
zhangfeng11339 天前
deepspeed zero3 结合 llamafactory 微调 ,save_only_model: true 导致保存时候出错
开发语言·python·深度学习
大模型最新论文速读9 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理