机器学习深度学习beginning2

1.Batch Size（批次大小）和Epoch（轮次）：batch size是表示每个batch里装多少数据，epoch是表示将数据看完一遍。

Batch Size：过大，显存可能不够；梯度估计太准，可能导致泛化能力下降；Batch Normalization 效果会变差；过小，训练不稳定，震荡大；Batch Normalization 会失效。

Epoch：过大，过拟合；过小，欠拟合。

2.归一化

2.1 归一化通常指将数据变换到某个特定的范围（如 $0, 1$ ）或分布形态（如均值为 0、方差为 1），以加速收敛、提高模型稳定性或消除量纲影响。

2.2 Batch Normalization（批归一化，简称 BN），核心目的是加速神经网络的训练过程，并提高模型的稳定性。因为在深层神经网络中，随着层数加深，每一层输入的分布会不断变化（因为前一层的参数在更新），所以会使用到BN，其通常在线性层（全连接/卷积）之后，激活函数之前用。

适用：CNN（常用）、MLP（常用），但对 batch size 敏感：太小（如 N<8N<8）时统计量不可靠，效果会下降。

2.3 Layer Normalization (层归一化，简称 LN)，为了克服 BN 在 RNN 和小 batch 场景下的局限，可以使用LN。

适用：RNN、Transformer（常放在残差连接之前）、MLP（小 batch）。

2.4 Feature Normalization（特征归一化），在数据预处理阶段对输入特征进行的缩放或标准化，

3.自适应学习率：不再使用固定的学习率，让学习率随着训练过程动态变化，可以为每一个参数（权重）单独维护一个学习率。

4.自注意力机制（Self-Attention）：让序列中的每个元素（如每个单词）都去关注序列中的所有其他元素**，** 计算它们之间的相关性权重。即在处理一个词时，不仅看这个词本身，还要看句子中其他所有词与它的相关性。

4.1 工作原理：首先，每个输入词被转换为三个向量：Query (Q), Key (K), Value (V)；然后，通过计算 Q 和 K 的点积，得到注意力分数（表示两个词的相关程度）；最后，根据分数对 V 进行加权求和，得到该词的新表示。

4.2 优点：并行计算，不需要像 RNN 那样一步步算，所有词的注意力可以同时计算（极大提升训练速度）；长距离依赖，无论两个词距离多远，它们之间的注意力路径长度都是 1（直接相连）；可解释性，可以通过可视化注意力权重，看到模型在预测时"关注"了哪些词。

5.Transformer：主要用于处理序列数据（如文本、时间序列、音频等），核心机制采用自注意力机制（self-attention）。原始的transformer采用Encoder-Decoder（编码器-解码器）结构，该结构重要用于序列到序列（Sequuence-to-Sequence）的任务，Encoder主要"理解"输入，Decoder主要"生成"输出。

特性	Encoder-Decoder (原始 Transformer)	Encoder-Only (如 BERT)	Decoder-Only (如 GPT)
注意力机制	双向 (Enc) + 掩码单向 (Dec) + 交叉注意力	双向自注意力	掩码单向自注意力
主要任务	生成 + 理解 (翻译、摘要、问答)	理解 (分类、情感分析、填空)	生成 (写作、对话、代码)
输入输出	输入序列 → 输出不同序列	输入序列 → 标签/向量	输入序列 → 续写序列
典型模型	T5, BART, Whisper, Original Transformer	BERT, RoBERTa, ViT	GPT-3/4, LLaMA, Claude

6.多类别分类（Muti-class Classification）：每个样本只属于一个类别，且类别总数大于 2（若等于 2 则为二分类）。

输出层：通常使用 Softmax 激活函数，将全连接层的输出转换为概率分布。

常用评价指标：
准确率 (Accuracy) ：正确预测的样本数 / 总样本数。适用于类别平衡的场景。
混淆矩阵 (Confusion Matrix) ：详细展示每个类别的预测情况。
精确率 (Precision)、召回率 (Recall)、F1-score ：通常需要按类别计算，然后取宏平均 (macro) 或加权平均 (weighted) ，以应对类别不平衡。

应用场景：图像分类、文本分类、语言识别。

7.多标签分类（Muti-label Classification）：每个样本可以属于多个类别，且类别之间不互斥。

输出层：每个标签对应一个输出节点，通常使用 Sigmoid 激活函数，将每个输出独立映射到 (0,1) 区间，表示该标签的预测概率。

常用评价指标：
准确率 (Accuracy) ：预测正确的标签数 / 总标签数（含真实和预测）。
精确率 ：正确预测的标签数 / 预测为正的标签总数。
召回率 ：正确预测的标签数 / 真实的正标签总数。
F1-score ：上述两者的调和平均。

应用场景：文本打标、图像标注、基因功能预测。

补充：
1.全连接层：每个输入神经元都与每个输出神经元相连的线性变换层，即输出向量的每一个元素，都是输入向量所有元素的加权和再加上一个偏置，因此称为"全连接"。主要用于分类头、特征融合。
2.混淆矩阵是一个 K×K 的矩阵，行表示真实类别，列表示预测类别。元素 Cij 表示真实类别为 ii且被预测为类别 j 的样本数。
对角线：正确分类的样本数。
非对角线：错误分类的情况（如类别 i 被误判为 j）。