图像识别/分类常见学习范式:有监督、无监督、自监督、半监督……(通俗版)

你可以把"学习范式"理解为:你手里有什么样的数据、你用什么方式让模型学到有用的特征
对图像识别/分类来说,下面这些范式最常见,也最值得系统掌握。

1 先给一个直观总览

你可以用"有没有标签"来理解:

  • 有监督学习(Supervised):有图片 + 有正确答案(标签)

  • 无监督学习(Unsupervised):只有图片,没有任何标签

  • 自监督学习(Self-Supervised) :没有人工标签,但自己造题给自己做(仍然是监督信号)

  • 半监督学习(Semi-Supervised):一小部分有标签 + 大量无标签

  • 弱监督学习(Weakly-Supervised):有标签,但标签很弱/不精确/有噪声(例如只告诉你"有猫",不告诉你猫在哪)

另外还有两个你做论文经常会用到的"训练套路":

  • 迁移学习(Transfer Learning):用大数据预训练模型,再在你数据上微调

  • 知识蒸馏(Distillation):用大模型教小模型


2 有监督学习(Supervised Learning):最直接、最常用

你有什么数据?

  • (图像, 标签),比如 CIFAR10:每张图都有 0~9 的类别

模型怎么学?

  • 模型输出每个类别的分数(logits)

  • 用交叉熵让正确类别的分数变大

优点

  • 简单直接,效果稳定,是所有分类研究的标准基线

缺点

  • 需要大量人工标注(成本高)

  • 容易过拟合小数据

在论文里怎么用?

  • 你提出新模块,最基本就要在有监督分类上做对比与消融(ablation)

3 无监督学习(Unsupervised Learning):完全没有标签

你有什么数据?

  • 只有图像,没有标签

模型怎么学?

传统无监督在视觉里常见两条路:

  • 聚类(clustering):把特征相近的图聚在一起(k-means 等)

  • 生成式(generative):学会"生成/重建"图像(VAE/GAN/diffusion等)

对"图像分类/识别"有用吗?

  • 间接有用 :可以学表征,但在现代视觉分类里,更多人用的是自监督(下一节),因为更强、更主流。

在论文里怎么用?

  • 如果你的研究重点是"无标签学特征",可以作为方向;

  • 但如果你主打分类精度/模块创新,通常无监督不是首选主线。


4 自监督学习(Self-Supervised Learning, SSL):现在视觉里非常重要

最通俗一句话:没有人工标签,但我们"自己给自己出题",让模型在解题过程中学到通用特征。

你有什么数据?

  • 只有图像(不需要标签)

"自己出题"怎么出?

常见三类(都很适合图像识别/分类):

  • [对比学习](SimCLR/MoCo 思路)

    • 把同一张图做两次增强,得到两张"相似图":让模型认为它们特征相近

    • 把不同图当"负样本":让特征远离

    • 学出来的特征拿去分类/检索很强

  • [蒸馏/无对比](BYOL/DINO 思路)

    • teacher-student:让学生输出接近老师输出

    • 不需要显式负样本,训练更稳定/实现更简洁(很多论文爱用)

  • [Mask 重建](MAE 思路,ViT 最常见)

    • 随机遮住一部分 patch,让模型去"补全/重建"

    • 学到很强的视觉表征,尤其适合 Transformer

优点

  • 不需要标签也能学到强特征

  • 特别适合做论文(很容易做"预训练+微调"的论证)

缺点

  • 训练成本通常比纯监督高(预训练需要较多算力/轮数)

  • 实验设计要更严谨(否则很难说清提升来自哪里)

在论文里怎么用?

  • 经典套路:先自监督预训练,再在 CIFAR10/你的数据上监督微调

  • 你的模块如果能提升自监督预训练后的下游分类效果,会更有说服力


5 半监督学习(Semi-Supervised Learning):少量标签 + 大量无标签

你有什么数据?

  • 少量 (图像, 标签) + 大量 图像(无标签)

核心思想(通俗版)

  • 伪标签(Pseudo Label):模型先给无标签数据猜个标签,当成"临时答案"训练

  • 一致性约束(Consistency):同一张图做不同增强,模型输出应该一致

优点

  • 标签少也能达到接近全监督的效果(很适合现实场景)

  • 论文也很常见,因为体现"数据效率"

在论文里怎么用?

  • 如果你的模块强调"少标签也能学好",半监督是很合适的实验舞台

6 弱监督学习(Weakly-Supervised):标签不完美但依然有用

你有什么数据?

  • 标签很粗/有噪声/不精确

    • 例如:只有图像级标签,但任务可能需要定位

    • 或者:标签里有不少标错

对分类/识别有什么用?

  • 现实数据常常不干净,弱监督/噪声鲁棒训练能显著提升落地效果

  • 论文中用于展示你方法"更鲁棒、更泛化"


7 迁移学习(Transfer Learning):最实用的"加速器"

迁移学习不是一种"有没有标签"的范式,更像一种训练策略:先用大数据/大模型学好,再迁到你任务。

  • ImageNet 预训练模型 → 微调 CIFAR10/你的数据

  • 你会发现:数据少时提升巨大


8 知识蒸馏(Distillation):大模型教小模型

  • teacher(大模型)输出软标签/中间特征

  • student(小模型)学习 teacher 的行为

  • 常用于:模型压缩、提升小模型精度、或训练 ViT(DeiT 就是典型)

相关推荐
kebijuelun2 小时前
Towards Automated Kernel Generation in the Era of LLMs:LLM 时代的自动化 Kernel 生成全景图
人工智能·gpt·深度学习·语言模型
2501_941322032 小时前
牛只行为识别研究:基于YOLO13与UniRepLKNetBlock的智能分类系统_1
人工智能·分类·数据挖掘
清 晨2 小时前
亚马逊跨境电商“账号健康与申诉(POA)”专项:规则更严时,别把一次失误变成长期封锁
人工智能·跨境电商·亚马逊·内容营销
玄同7652 小时前
OpenClaw 完全指南:部署你的 7×24 小时开源 AI 助手
人工智能·开源·智能体·agentic rag·openclaw·clawd·molt
Deepoch2 小时前
Deepoc具身模型:以三重赋能升级无人机智能作业
人工智能·科技·无人机·开发板·具身模型·deepoc·无人机爱好者
Faker66363aaa2 小时前
YOLO11-Seg-EfficientViT离合器缺陷检测与分类系统详解
人工智能·分类·数据挖掘
产品经理邹继强2 小时前
VTC产品与创新篇②:产品决策仪表盘——告别优先级争吵,用三维算法驱动路线图
大数据·人工智能
Eloudy2 小时前
Rubin“零线缆”液冷模组技术介绍
人工智能·ic·arch
格林威2 小时前
Baumer相机车牌字符分割与识别:优化车牌识别准确率的 7 种方法,附 OpenCV+Halcon 实战代码!
人工智能·opencv·计算机视觉·视觉检测·halcon·工业相机·智能相机