机器学习中的自监督学习和无监督学习的区别是什么?

自监督学习(Self-Supervised Learning, SSL) = 模型从输入数据本身生成"标签"进行训练
无监督学习(Unsupervised Learning) = 模型没有标签,只找数据内部结构或规律

核心区别在于:有没有自动生成的训练目标(监督信号)

1. 无监督学习(Unsupervised Learning)

特点

  • 没有任何标签

  • 学习数据的分布或结构

  • 典型任务:

    • 聚类(Clustering):K-Means、DBSCAN
    • 降维(Dimensionality Reduction):PCA、t-SNE、UMAP
    • 密度估计(Density Estimation)

直观例子

python 复制代码
from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1,2],[1,4],[1,0],[10,2],[10,4],[10,0]])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_)
  • 模型没标签,但能自动分出两类数据

2. 自监督学习(Self-Supervised Learning)

特点

  • 没有人工标签,但模型自己从数据生成"伪标签"
  • 目标就是设计一个预测任务,让模型学习特征表示
  • 是监督学习的一种特殊形式

典型任务

  1. BERT:掩码语言模型 (Masked Language Modeling)

    • 输入:The cat [MASK] on the mat
    • 目标(伪标签):预测 [MASK] = sat
  2. GPT:自回归语言模型

    • 输入:前 n 个 token
    • 目标(伪标签):预测下一个 token
  3. 图像自监督

    • 对比学习(SimCLR, MoCo)
    • 随机增强同一张图片 → 让模型学习相似性

3. 核心区别对比

特性 无监督 自监督
标签 没有 模型自己生成(伪标签)
学习目标 发现结构 预测或重建
任务例子 聚类、降维 语言模型、对比学习
监督信号 有(自动生成)
训练方式 通常用概率或距离 用标准监督学习的 loss
相关推荐
小趴菜不能喝2 小时前
AI大模型中的MCP和Skills
人工智能
菩提树下的凡夫2 小时前
跟踪转台最大跟踪速度和跟踪加速度求解
人工智能·机器学习
Quintus五等升2 小时前
深度学习自用笔记
人工智能·笔记·深度学习·学习·机器学习·bert·numpy
Deepoch2 小时前
Deepoc具身模型开发板:焕新清洁机器人,告别低效清洁
人工智能·机器人·清洁机器人·具身模型·deepoc·清洁神器·家居好物
有Li2 小时前
解剖学引导的全身PET-CT乳腺癌分割与跨模态自对齐/文献速递-基于深度学习的图像配准与疾病诊断
论文阅读·人工智能·深度学习·文献·医学生
xdpcxq10292 小时前
indows+AMD显卡ROCm跑深度学习
人工智能·深度学习
fouryears_234172 小时前
源码阅读:Spring AI 框架是如何进行工具调用以及循环调用的过程
java·人工智能·spring·spring ai
桂花饼2 小时前
Sora-2 API 低成本接入指南:Python 实现 0.08 元/次的视频生成方案
人工智能·python·qwen3-next·nano banana pro·gemini-3-pro·sora2pro
AI周红伟2 小时前
周红伟老师 :企业级RAG+Agent+Skills+OpenClaw智能体内训方案大纲,企业六大智能体技术
人工智能