图像识别/分类常见学习范式：有监督、无监督、自监督、半监督……（通俗版）

你可以把"学习范式"理解为：你手里有什么样的数据、你用什么方式让模型学到有用的特征 。
对图像识别/分类来说，下面这些范式最常见，也最值得系统掌握。

1 先给一个直观总览

你可以用"有没有标签"来理解：

有监督学习（Supervised）：有图片 + 有正确答案（标签）
无监督学习（Unsupervised）：只有图片，没有任何标签
自监督学习（Self-Supervised） ：没有人工标签，但自己造题给自己做（仍然是监督信号）
半监督学习（Semi-Supervised）：一小部分有标签 + 大量无标签
弱监督学习（Weakly-Supervised）：有标签，但标签很弱/不精确/有噪声（例如只告诉你"有猫"，不告诉你猫在哪）

另外还有两个你做论文经常会用到的"训练套路"：

迁移学习（Transfer Learning）：用大数据预训练模型，再在你数据上微调
知识蒸馏（Distillation）：用大模型教小模型

2 有监督学习（Supervised Learning）：最直接、最常用

你有什么数据？

(图像, 标签)，比如 CIFAR10：每张图都有 0~9 的类别

模型怎么学？

模型输出每个类别的分数（logits）
用交叉熵让正确类别的分数变大

优点

简单直接，效果稳定，是所有分类研究的标准基线

缺点

需要大量人工标注（成本高）
容易过拟合小数据

在论文里怎么用？

你提出新模块，最基本就要在有监督分类上做对比与消融（ablation）

3 无监督学习（Unsupervised Learning）：完全没有标签

你有什么数据？

只有图像，没有标签

模型怎么学？

传统无监督在视觉里常见两条路：

聚类（clustering）：把特征相近的图聚在一起（k-means 等）
生成式（generative）：学会"生成/重建"图像（VAE/GAN/diffusion等）

对"图像分类/识别"有用吗？

间接有用 ：可以学表征，但在现代视觉分类里，更多人用的是自监督（下一节），因为更强、更主流。

在论文里怎么用？

如果你的研究重点是"无标签学特征"，可以作为方向；
但如果你主打分类精度/模块创新，通常无监督不是首选主线。

4 自监督学习（Self-Supervised Learning, SSL）：现在视觉里非常重要

最通俗一句话：没有人工标签，但我们"自己给自己出题"，让模型在解题过程中学到通用特征。

你有什么数据？

只有图像（不需要标签）

"自己出题"怎么出？

常见三类（都很适合图像识别/分类）：

[对比学习]（SimCLR/MoCo 思路）
- 把同一张图做两次增强，得到两张"相似图"：让模型认为它们特征相近
- 把不同图当"负样本"：让特征远离
- 学出来的特征拿去分类/检索很强
[蒸馏/无对比]（BYOL/DINO 思路）
- teacher-student：让学生输出接近老师输出
- 不需要显式负样本，训练更稳定/实现更简洁（很多论文爱用）
[Mask 重建]（MAE 思路，ViT 最常见）
- 随机遮住一部分 patch，让模型去"补全/重建"
- 学到很强的视觉表征，尤其适合 Transformer

优点

不需要标签也能学到强特征
特别适合做论文（很容易做"预训练+微调"的论证）

缺点

训练成本通常比纯监督高（预训练需要较多算力/轮数）
实验设计要更严谨（否则很难说清提升来自哪里）

在论文里怎么用？

经典套路：先自监督预训练，再在 CIFAR10/你的数据上监督微调
你的模块如果能提升自监督预训练后的下游分类效果，会更有说服力

5 半监督学习（Semi-Supervised Learning）：少量标签 + 大量无标签

你有什么数据？

少量 (图像, 标签) + 大量 图像(无标签)

核心思想（通俗版）

伪标签（Pseudo Label）：模型先给无标签数据猜个标签，当成"临时答案"训练
一致性约束（Consistency）：同一张图做不同增强，模型输出应该一致

优点

标签少也能达到接近全监督的效果（很适合现实场景）
论文也很常见，因为体现"数据效率"

在论文里怎么用？

如果你的模块强调"少标签也能学好"，半监督是很合适的实验舞台

6 弱监督学习（Weakly-Supervised）：标签不完美但依然有用

你有什么数据？

标签很粗/有噪声/不精确
- 例如：只有图像级标签，但任务可能需要定位
- 或者：标签里有不少标错

对分类/识别有什么用？

现实数据常常不干净，弱监督/噪声鲁棒训练能显著提升落地效果
论文中用于展示你方法"更鲁棒、更泛化"

7 迁移学习（Transfer Learning）：最实用的"加速器"

迁移学习不是一种"有没有标签"的范式，更像一种训练策略：先用大数据/大模型学好，再迁到你任务。

ImageNet 预训练模型 → 微调 CIFAR10/你的数据
你会发现：数据少时提升巨大

8 知识蒸馏（Distillation）：大模型教小模型

teacher（大模型）输出软标签/中间特征
student（小模型）学习 teacher 的行为
常用于：模型压缩、提升小模型精度、或训练 ViT（DeiT 就是典型）