碎片笔记｜样本少不等于欠拟合：从 Few-shot 任务理解过拟合与欠拟合

前言：刚刚在和外导 meeting 时，触及到一个之前没有深入思考的问题：few-shot 场景下训练分类器，到底更容易导致过拟合还是欠拟合？本文围绕这一问题展开讨论：先区分过拟合与欠拟合，再分析样本数量、模型复杂度和特征空间之间的关系，最后给出相应的诊断思路和解决方案。

过拟合与欠拟合：为什么样本少不一定等于欠拟合？
- [1. 什么是欠拟合？](#1. 什么是欠拟合？)
- [2. 什么是过拟合？](#2. 什么是过拟合？)
- [3. 欠拟合与过拟合的核心区别](#3. 欠拟合与过拟合的核心区别)
- [4. 从 bias-variance 角度理解二者](#4. 从 bias-variance 角度理解二者)
- [5. 什么情况下会出现欠拟合？](#5. 什么情况下会出现欠拟合？)
- - [5.1 模型太简单](#5.1 模型太简单)
  - [5.2 特征空间不合适](#5.2 特征空间不合适)
  - [5.3 训练不充分或正则化过强](#5.3 训练不充分或正则化过强)
  - [5.4 数据质量或标签存在问题](#5.4 数据质量或标签存在问题)
- [6. 什么情况下会出现过拟合？](#6. 什么情况下会出现过拟合？)
- - [6.1 模型太复杂，而训练样本太少](#6.1 模型太复杂，而训练样本太少)
  - [6.2 数据分布太窄](#6.2 数据分布太窄)
  - [6.3 数据存在非目标偏差](#6.3 数据存在非目标偏差)
  - [6.4 训练时间太长或正则化不足](#6.4 训练时间太长或正则化不足)
- [7. 样本数量与过拟合、欠拟合的关系](#7. 样本数量与过拟合、欠拟合的关系)
- - [7.1 样本少时，更常见的风险是过拟合和高方差](#7.1 样本少时，更常见的风险是过拟合和高方差)
  - [7.2 样本变多通常能缓解过拟合，但不是万能的](#7.2 样本变多通常能缓解过拟合，但不是万能的)
  - [7.3 样本数量需要和模型复杂度匹配](#7.3 样本数量需要和模型复杂度匹配)
- [8. 如何通过 learning curve 诊断问题？](#8. 如何通过 learning curve 诊断问题？)
- [9. 如何解决欠拟合与过拟合？](#9. 如何解决欠拟合与过拟合？)
- - [9.1 欠拟合的解决方向](#9.1 欠拟合的解决方向)
  - [9.2 过拟合的解决方向](#9.2 过拟合的解决方向)
  - [9.3 对照总结](#9.3 对照总结)
- [10. 一个实用排查流程](#10. 一个实用排查流程)
- 总结

过拟合与欠拟合：为什么样本少不一定等于欠拟合？

在机器学习中，过拟合（overfitting） 和 欠拟合（underfitting） 是两个基础但容易混淆的概念。很多人会直觉地认为：样本少会导致模型"学不够"，所以是欠拟合；样本多时模型"学太多"，才会过拟合。但这种理解并不准确。

更严谨地说，过拟合和欠拟合并不是由样本数量单独决定的，而是由模型复杂度、数据规模、特征质量、训练方式、数据分布和任务难度共同决定的。尤其在 few-shot 场景中，样本少既可能导致欠拟合，也可能导致过拟合；在很多实际任务中，更常见的问题反而是过拟合或高方差。

本文将从概念、成因、诊断方法和解决方案四个角度，系统梳理过拟合与欠拟合的区别，并结合生成图像溯源任务说明 few-shot samples 为什么不一定意味着欠拟合。

1. 什么是欠拟合？

欠拟合是指模型没有充分学到训练数据中的有效规律。

也就是说，模型表达能力不足，或者训练过程不充分，导致它连训练集本身都没有拟合好。欠拟合通常表现为：

训练集性能低｜验证集性能低｜测试集性能也低

例如，在一个多分类任务中，如果模型在训练集上的准确率只有 40%，在测试集上也只有 38%，那么这通常说明模型没有学到有效的判别规律。

在生成图像溯源任务中也是如此。如果我们希望模型区分不同生成器的图像来源，但模型在训练集上都无法有效区分 Stable Diffusion、StyleGAN、ProGAN 或其他生成器，那么这更接近欠拟合。

欠拟合的核心问题是：模型还没有学到应该学到的规律。

造成欠拟合的原因通常包括：模型太简单、输入特征不合适、训练不充分、正则化过强，或者任务中的类别在当前特征空间中本来就不可分。

2. 什么是过拟合？

过拟合是指模型不仅学到了训练数据中的有效规律，还学到了训练集中的噪声、偶然细节和数据偏差。

也就是说，模型在训练集上表现很好，但它学到的规律并不具有泛化性。过拟合通常表现为：

训练集性能高｜验证集性能下降｜测试集性能低

例如，一个模型在训练集上的准确率达到 98%，但在测试集上只有 55%，那么它很可能不是学到了真正稳定的判别规律，而是记住了训练样本中的偶然特征。

在生成图像溯源任务中，过拟合尤其危险。模型可能表面上学会了区分不同生成器，但实际上依赖的是一些无关线索，例如：

某个生成器的训练图像大多是人脸；
某个生成器的训练图像大多是风景；
某个生成器的图像主要是 PNG；
某个生成器的图像经过了特定 JPEG 压缩；
不同 source 的 prompt 模板、分辨率或后处理流程不同。

这些线索可能在训练集中与类别标签高度相关，但它们不是真正稳定的目标特征。一旦测试分布发生变化，模型性能就会明显下降。

过拟合的核心问题是：模型学到了训练集中的偶然规律，而不是可泛化的规律。

3. 欠拟合与过拟合的核心区别

判断欠拟合还是过拟合，不能只看测试性能，而要同时观察训练集、验证集和测试集表现。

训练集表现	验证集/测试集表现	更可能的问题
低	低	欠拟合
高	低	过拟合
高	高	拟合较好
低	高	通常说明数据划分或评估存在异常

例如：

text 复制代码

Train Acc = 45%
Val Acc   = 43%
Test Acc  = 42%

这种情况通常是欠拟合，因为模型连训练数据都没有学好。

text 复制代码

Train Acc = 98%
Val Acc   = 57%
Test Acc  = 55%

这种情况通常是过拟合，因为模型在训练集上表现很好，但泛化能力很差。

因此，欠拟合和过拟合的区别可以概括为：

欠拟合是"训练集也学不好"；过拟合是"训练集学得很好，但泛化不好"。

4. 从 bias-variance 角度理解二者

从 bias-variance trade-off 的角度看，欠拟合通常对应高偏差（high bias） ，过拟合通常对应高方差（high variance）。

高偏差意味着模型假设与真实规律之间存在系统性差距。例如，真实分类边界是复杂非线性的，但模型只能学习线性边界，那么模型就会系统性地犯错。这种情况对应欠拟合。

高方差意味着模型对训练数据变化非常敏感。如果模型太复杂，而训练样本有限，那么换一组训练样本就可能得到完全不同的决策边界。这种情况对应过拟合。

Few-shot 场景下，高方差尤其常见。因为每个类别只有少量样本，某一次采样可能并不能代表真实分布。模型如果对这些样本过于敏感，就容易把偶然特征当成稳定规律。

5. 什么情况下会出现欠拟合？

欠拟合的本质是模型没有足够能力或条件学习有效规律，常见原因包括以下几类。

5.1 模型太简单

如果任务本身很复杂，但模型表达能力太弱，就容易欠拟合。例如真实数据中的类别边界是非线性的，但我们只使用一个简单线性分类器，模型可能无法表达复杂的决策边界。

在生成图像溯源中，不同生成器之间的差异往往非常细微，可能体现在局部纹理、频域模式、压缩残留或生成器特有伪影上。如果模型或特征过于简单，就可能无法捕捉这些 source-specific traces。

5.2 特征空间不合适

有时候欠拟合并不是分类器太弱，而是输入特征本身不包含有效信息。

例如，在生成图像溯源任务中，如果使用的 representation 主要编码"猫、狗、人脸、风景"等语义内容，而没有保留生成器相关的底层痕迹，那么无论后面接什么分类器，都很难完成溯源。

这时真正需要改进的不是分类器，而是特征空间。

5.3 训练不充分或正则化过强

如果训练 epoch 太少、learning rate 太小、优化器设置不合适，模型可能还没有收敛，就表现为欠拟合。

类似地，如果 weight decay 太大、dropout 太高、data augmentation 太强，模型也可能被限制得过于严重，导致训练集性能一直上不去。

5.4 数据质量或标签存在问题

如果 label 错误、类别映射不一致、数据读取有误，或者图像在预处理过程中被破坏，模型也可能表现为训练集和测试集性能都不高。

因此，当模型始终无法拟合训练集时，除了调整模型，也需要检查数据质量和实验流程。

6. 什么情况下会出现过拟合？

过拟合的本质是模型从训练数据中学到了不稳定的规律，常见原因包括以下几类。

6.1 模型太复杂，而训练样本太少

这是最典型的过拟合场景。如果每个类别只有几张图像，却训练一个高容量深度网络，模型很容易直接记住训练样本的颜色、纹理、构图或局部细节，而不是学习一般规律。

6.2 数据分布太窄

即使样本数量不算极少，如果训练数据覆盖范围太窄，也容易过拟合。

例如：

text 复制代码

Generator A 的训练图像大多是人像
Generator B 的训练图像大多是风景
Generator C 的训练图像大多是动物

模型可能学到的是：

text 复制代码

人像 → Generator A
风景 → Generator B
动物 → Generator C

而不是：

text 复制代码

不同生成器的来源痕迹

这类问题通常被称为 shortcut learning。模型学到的是最容易利用的相关性，而不是真正稳定的目标特征。

6.3 数据存在非目标偏差

在溯源任务中，常见 shortcut 包括语义类别、prompt 模板、图像格式、分辨率、压缩质量、后处理流程和数据来源差异。

这些因素可能让训练集结果很好，但它们不一定能泛化到新的测试分布。因此，过拟合不一定只是"记住图像"，也可能是"记住数据集偏差"。

6.4 训练时间太长或正则化不足

如果模型训练太久，或者 weight decay、dropout、data augmentation 等正则化不足，模型可能在训练后期逐渐拟合噪声和错误标签。

典型表现是：训练 loss 持续下降，但验证集性能不再提升，甚至开始下降。

7. 样本数量与过拟合、欠拟合的关系

样本数量会影响模型对真实数据分布的估计是否稳定，但它不能单独决定模型是过拟合还是欠拟合。

7.1 样本少时，更常见的风险是过拟合和高方差

在 few-shot 场景中，每个类别只有少量样本。这些样本通常无法代表完整数据分布。如果此时使用容量较大的分类器，模型很容易把少量样本中的偶然现象当成规律。

因此，few-shot 并不等于欠拟合。更准确地说：

Few-shot samples 会增加学习的不确定性：模型容量较大时，容易过拟合；模型太弱、特征不合适或类别不可分时，可能欠拟合；结果对样本选择非常敏感时，还会表现为高方差。

在生成图像溯源任务中，这一点尤其明显。每个生成器的 few-shot samples 往往难以覆盖完整的 prompt 分布、语义类别、生成风格、分辨率和后处理方式。因此，分类器可能学到的是"这几张训练图像的特征"，而不是"这个生成器稳定的来源痕迹"。

7.2 样本变多通常能缓解过拟合，但不是万能的

样本数量增加后，模型可以看到更多变化，从而更难依赖偶然特征。对于生成图像溯源，如果每个生成器的样本覆盖了更多语义类别、prompt 类型和生成风格，模型更有机会学习稳定的 source-specific traces。

但是，样本多并不意味着一定不会过拟合。如果数据中存在系统性偏差，例如某个 source 的图像全部是 PNG，另一个 source 的图像全部是 JPEG，那么即使样本很多，模型仍然可能学到格式差异，而不是真正的来源痕迹。

7.3 样本数量需要和模型复杂度匹配

样本数量需要和模型复杂度、正则化强度、特征质量一起考虑。

数据规模	模型复杂度	可能问题
小	高	容易过拟合
小	低	可能欠拟合，也可能高方差
大	低	可能欠拟合
大	高且正则合理	更可能拟合良好
大但偏差严重	任意模型都可能学到 shortcut

因此，不能简单地说"样本少就是欠拟合"。更关键的问题是：当前样本量是否足以支撑当前模型复杂度，并且是否足以覆盖任务所需的数据分布。

8. 如何通过 learning curve 诊断问题？

除了看最终 accuracy，还可以通过训练过程中的 loss 或 accuracy 曲线判断问题。

如果 train loss 和 validation loss 都较高，并且训练集准确率也上不去，通常说明模型欠拟合。这时应优先考虑提高模型能力、改善特征空间、延长训练或减弱正则化。

如果 train loss 持续下降，而 validation loss 先下降后上升，通常说明模型过拟合。此时应优先考虑 early stopping、加强正则化、降低模型复杂度、增加数据多样性或检查 shortcut。

如果不同随机种子、不同 few-shot samples 或不同 reference samples 导致结果大幅波动，则说明模型存在明显高方差。这时应重复多次实验，并报告 mean ± std，而不是只报告一次随机采样的结果。

9. 如何解决欠拟合与过拟合？

诊断出问题之后，解决思路应该和问题类型对应。简单来说：

欠拟合需要提高模型学习有效规律的能力；过拟合需要降低模型记住偶然规律的能力。

9.1 欠拟合的解决方向

如果训练集、验证集和测试集表现都较差，可以从以下几个方向改进。

第一，提高模型表达能力。

如果模型太简单，可以考虑从线性分类器换成 MLP，增加 hidden dimension，使用更强的 backbone，或者适当解冻部分预训练模型参数。但提高模型复杂度也可能增加过拟合风险，因此应结合验证集表现判断。

第二，改善特征空间。

如果输入特征不包含任务所需信息，单纯增强分类器作用有限。以生成图像溯源为例，如果特征主要编码语义内容，而没有保留生成器相关的局部纹理、频域模式或伪影，那么分类器很难学到真正的 source-specific traces。此时更应该尝试中间层特征、patch-level features、频域特征或 residual features。

第三，减弱过强的训练约束。

如果 weight decay 太大、dropout 太高、data augmentation 太强、learning rate 太小或 early stopping 过早，模型可能还没学到有效规律就被限制住了。这时可以适当延长训练、调整学习率、降低正则化强度或减弱数据增强。

第四，检查数据质量。

如果模型始终无法拟合训练集，需要确认 label 是否正确、类别映射是否一致、图像是否损坏、数据读取和预处理流程是否正确。表面上的欠拟合，有时其实是数据或标签本身不可学。

9.2 过拟合的解决方向

如果训练集表现很好，但验证集和测试集表现明显下降，可以从以下几个方向改进。

第一，降低模型复杂度。

在样本较少时，应避免直接训练高容量模型。可以冻结 backbone，只训练简单分类头，减少 MLP 层数或 hidden dimension，或者使用 prototype classifier、nearest-neighbor、cosine similarity 等低参数甚至无训练参数的方法。

第二，加强适度正则化。

可以使用 weight decay、dropout、label smoothing、early stopping、feature normalization 或 class-balanced sampling。需要注意，正则化不是越强越好，过强正则化会导致欠拟合。

第三，增加数据多样性。

过拟合往往来自训练分布太窄。与其增加大量相似样本，不如增加覆盖度。例如在图像任务中，应尽量覆盖不同语义类别、风格、场景和后处理条件。在生成图像溯源中，不同 source 的样本最好具有相似的语义分布，避免模型学到"人脸对应 A，风景对应 B"这样的 shortcut。

第四，控制 shortcut 和数据泄漏。

如果不同类别之间存在格式、分辨率、压缩质量、prompt 模板或数据来源差异，模型可能会利用这些非目标线索完成分类。实验中应尽量统一或平衡这些因素。此外，测试集不能参与模型选择，不能用测试集选择 best layer、best threshold、best checkpoint 或最佳超参数，否则会造成隐性数据泄漏。

第五，多次采样并报告方差。

在 few-shot 场景中，结果可能对样本选择高度敏感。尤其每类只有 1、2、5 个样本时，一次随机采样很难代表方法的真实性能。因此应重复多次采样，并报告 mean ± std。

9.3 对照总结

问题类型	典型表现	主要原因	解决方向
欠拟合	Train 低，Val/Test 低	模型太弱、特征不合适、训练不足、正则过强	增强模型能力，改善特征，延长训练，减弱正则，检查数据
过拟合	Train 高，Val/Test 低	模型太强、样本太少、分布太窄、shortcut、正则不足	降低模型复杂度，加强正则，增加数据多样性，控制 shortcut
高方差	不同采样结果波动大	few-shot 样本不足，模型对采样敏感	多次重复实验，报告 mean ± std，使用更稳定的低参数方法
数据泄漏	Test 异常高或结果不可信	测试集参与训练或模型选择	严格划分 train/val/test，只用 test 做最终评估

10. 一个实用排查流程

当模型表现不好时，可以按照以下顺序排查：

先看训练集表现。 如果训练集表现也很差，优先怀疑欠拟合，检查模型能力、特征空间、训练设置和数据质量。
再看训练集和验证集差距。 如果训练集表现很好，但验证集表现差，优先怀疑过拟合，检查模型复杂度、正则化、数据多样性和 shortcut。
观察 learning curve。 如果 train loss 和 validation loss 都高，通常是欠拟合；如果 train loss 持续下降，而 validation loss 先下降后上升，通常是过拟合。
检查随机性。 如果结果对 seed 或 few-shot samples 非常敏感，说明高方差明显，应多次实验并报告均值和方差。
检查数据泄漏。 如果测试结果异常好，或者模型选择过程中使用了测试集，需要重新检查实验流程。
判断特征空间是否适合任务。 如果排除了训练问题和数据问题，但模型仍然表现不佳，可能说明当前 representation 不适合任务，或者类别在当前特征空间中本来就不可分。

总结

过拟合和欠拟合都属于泛化问题，但二者的表现和解决方向不同。

欠拟合是模型没有学到训练数据中的有效规律，通常表现为训练集、验证集和测试集性能都低。它可能来自模型太简单、特征不合适、训练不充分、正则化过强或数据质量问题。

过拟合是模型学到了训练集中的偶然规律，通常表现为训练集性能高，但验证集和测试集性能低。它可能来自模型太复杂、样本太少、数据分布太窄、shortcut 明显、正则化不足或训练时间过长。

样本数量会影响二者，但不能简单理解为"样本少就是欠拟合"。在 few-shot 场景中，样本少更常见地会增加过拟合和高方差风险，因为模型容易记住少量样本中的偶然特征。但如果模型太弱、特征不合适或训练约束过强，也可能表现为欠拟合。

因此，面对模型性能不佳时，最重要的不是直接增大模型或盲目增加训练轮数，而是先判断问题类型：如果 train 和 val/test 都差，优先解决欠拟合；如果 train 好而 val/test 差，优先解决过拟合；如果结果对采样高度敏感，则需要关注 high variance，并通过重复实验和更稳定的方法降低不确定性。

碎片笔记｜样本少不等于欠拟合：从 Few-shot 任务理解过拟合与欠拟合

目录

过拟合与欠拟合：为什么样本少不一定等于欠拟合？

1. 什么是欠拟合？

2. 什么是过拟合？

3. 欠拟合与过拟合的核心区别

4. 从 bias-variance 角度理解二者

5. 什么情况下会出现欠拟合？

5.1 模型太简单

5.2 特征空间不合适

5.3 训练不充分或正则化过强

5.4 数据质量或标签存在问题

6. 什么情况下会出现过拟合？

6.1 模型太复杂，而训练样本太少

6.2 数据分布太窄

6.3 数据存在非目标偏差

6.4 训练时间太长或正则化不足

7. 样本数量与过拟合、欠拟合的关系

7.1 样本少时，更常见的风险是过拟合和高方差

7.2 样本变多通常能缓解过拟合，但不是万能的

7.3 样本数量需要和模型复杂度匹配

8. 如何通过 learning curve 诊断问题？

9. 如何解决欠拟合与过拟合？

9.1 欠拟合的解决方向

9.2 过拟合的解决方向

9.3 对照总结

10. 一个实用排查流程

总结