你可以把"学习范式"理解为:你手里有什么样的数据、你用什么方式让模型学到有用的特征 。
对图像识别/分类来说,下面这些范式最常见,也最值得系统掌握。
1 先给一个直观总览
你可以用"有没有标签"来理解:
-
有监督学习(Supervised):有图片 + 有正确答案(标签)
-
无监督学习(Unsupervised):只有图片,没有任何标签
-
自监督学习(Self-Supervised) :没有人工标签,但自己造题给自己做(仍然是监督信号)
-
半监督学习(Semi-Supervised):一小部分有标签 + 大量无标签
-
弱监督学习(Weakly-Supervised):有标签,但标签很弱/不精确/有噪声(例如只告诉你"有猫",不告诉你猫在哪)
另外还有两个你做论文经常会用到的"训练套路":
-
迁移学习(Transfer Learning):用大数据预训练模型,再在你数据上微调
-
知识蒸馏(Distillation):用大模型教小模型
2 有监督学习(Supervised Learning):最直接、最常用
你有什么数据?
(图像, 标签),比如 CIFAR10:每张图都有 0~9 的类别
模型怎么学?
-
模型输出每个类别的分数(logits)
-
用交叉熵让正确类别的分数变大
优点
- 简单直接,效果稳定,是所有分类研究的标准基线
缺点
-
需要大量人工标注(成本高)
-
容易过拟合小数据
在论文里怎么用?
- 你提出新模块,最基本就要在有监督分类上做对比与消融(ablation)
3 无监督学习(Unsupervised Learning):完全没有标签
你有什么数据?
- 只有图像,没有标签
模型怎么学?
传统无监督在视觉里常见两条路:
-
聚类(clustering):把特征相近的图聚在一起(k-means 等)
-
生成式(generative):学会"生成/重建"图像(VAE/GAN/diffusion等)
对"图像分类/识别"有用吗?
- 间接有用 :可以学表征,但在现代视觉分类里,更多人用的是自监督(下一节),因为更强、更主流。
在论文里怎么用?
-
如果你的研究重点是"无标签学特征",可以作为方向;
-
但如果你主打分类精度/模块创新,通常无监督不是首选主线。
4 自监督学习(Self-Supervised Learning, SSL):现在视觉里非常重要
最通俗一句话:没有人工标签,但我们"自己给自己出题",让模型在解题过程中学到通用特征。
你有什么数据?
- 只有图像(不需要标签)
"自己出题"怎么出?
常见三类(都很适合图像识别/分类):
-
[对比学习](SimCLR/MoCo 思路)
-
把同一张图做两次增强,得到两张"相似图":让模型认为它们特征相近
-
把不同图当"负样本":让特征远离
-
学出来的特征拿去分类/检索很强
-
-
[蒸馏/无对比](BYOL/DINO 思路)
-
teacher-student:让学生输出接近老师输出
-
不需要显式负样本,训练更稳定/实现更简洁(很多论文爱用)
-
-
[Mask 重建](MAE 思路,ViT 最常见)
-
随机遮住一部分 patch,让模型去"补全/重建"
-
学到很强的视觉表征,尤其适合 Transformer
-
优点
-
不需要标签也能学到强特征
-
特别适合做论文(很容易做"预训练+微调"的论证)
缺点
-
训练成本通常比纯监督高(预训练需要较多算力/轮数)
-
实验设计要更严谨(否则很难说清提升来自哪里)
在论文里怎么用?
-
经典套路:先自监督预训练,再在 CIFAR10/你的数据上监督微调
-
你的模块如果能提升自监督预训练后的下游分类效果,会更有说服力
5 半监督学习(Semi-Supervised Learning):少量标签 + 大量无标签
你有什么数据?
- 少量
(图像, 标签)+ 大量图像(无标签)
核心思想(通俗版)
-
伪标签(Pseudo Label):模型先给无标签数据猜个标签,当成"临时答案"训练
-
一致性约束(Consistency):同一张图做不同增强,模型输出应该一致
优点
-
标签少也能达到接近全监督的效果(很适合现实场景)
-
论文也很常见,因为体现"数据效率"
在论文里怎么用?
- 如果你的模块强调"少标签也能学好",半监督是很合适的实验舞台
6 弱监督学习(Weakly-Supervised):标签不完美但依然有用
你有什么数据?
-
标签很粗/有噪声/不精确
-
例如:只有图像级标签,但任务可能需要定位
-
或者:标签里有不少标错
-
对分类/识别有什么用?
-
现实数据常常不干净,弱监督/噪声鲁棒训练能显著提升落地效果
-
论文中用于展示你方法"更鲁棒、更泛化"
7 迁移学习(Transfer Learning):最实用的"加速器"
迁移学习不是一种"有没有标签"的范式,更像一种训练策略:先用大数据/大模型学好,再迁到你任务。
-
ImageNet 预训练模型 → 微调 CIFAR10/你的数据
-
你会发现:数据少时提升巨大
8 知识蒸馏(Distillation):大模型教小模型
-
teacher(大模型)输出软标签/中间特征
-
student(小模型)学习 teacher 的行为
-
常用于:模型压缩、提升小模型精度、或训练 ViT(DeiT 就是典型)