机器学习中的自监督学习和无监督学习的区别是什么?

自监督学习(Self-Supervised Learning, SSL) = 模型从输入数据本身生成"标签"进行训练
无监督学习(Unsupervised Learning) = 模型没有标签,只找数据内部结构或规律

核心区别在于:有没有自动生成的训练目标(监督信号)

1. 无监督学习(Unsupervised Learning)

特点

  • 没有任何标签

  • 学习数据的分布或结构

  • 典型任务:

    • 聚类(Clustering):K-Means、DBSCAN
    • 降维(Dimensionality Reduction):PCA、t-SNE、UMAP
    • 密度估计(Density Estimation)

直观例子

python 复制代码
from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1,2],[1,4],[1,0],[10,2],[10,4],[10,0]])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_)
  • 模型没标签,但能自动分出两类数据

2. 自监督学习(Self-Supervised Learning)

特点

  • 没有人工标签,但模型自己从数据生成"伪标签"
  • 目标就是设计一个预测任务,让模型学习特征表示
  • 是监督学习的一种特殊形式

典型任务

  1. BERT:掩码语言模型 (Masked Language Modeling)

    • 输入:The cat [MASK] on the mat
    • 目标(伪标签):预测 [MASK] = sat
  2. GPT:自回归语言模型

    • 输入:前 n 个 token
    • 目标(伪标签):预测下一个 token
  3. 图像自监督

    • 对比学习(SimCLR, MoCo)
    • 随机增强同一张图片 → 让模型学习相似性

3. 核心区别对比

特性 无监督 自监督
标签 没有 模型自己生成(伪标签)
学习目标 发现结构 预测或重建
任务例子 聚类、降维 语言模型、对比学习
监督信号 有(自动生成)
训练方式 通常用概率或距离 用标准监督学习的 loss
相关推荐
风象南2 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端
IT_陈寒3 小时前
Vite vs Webpack:5个让你的开发效率翻倍的实战对比
前端·人工智能·后端
摆烂工程师4 小时前
GPT-5.4 发布!再看 OpenClaw:AI 真正危险的,不是更会聊天,而是开始自己“干活”
人工智能·openai·ai编程
飞哥数智坊13 小时前
分享被迫变直播:AI·Spring养虾记就这样上线了
人工智能
Mr_Lucifer16 小时前
「一句话」生成”小红书“式金句海报(CodeFlicker + quote-poster-generator)
人工智能·aigc·visual studio code
冬奇Lab16 小时前
OpenClaw 深度解析(五):模型与提供商系统
人工智能·开源·源码阅读
冬奇Lab17 小时前
一天一个开源项目(第42篇):OpenFang - 用 Rust 构建的 Agent 操作系统,16 层安全与 7 个自主 Hands
人工智能·rust·开源
IT_陈寒17 小时前
SpringBoot性能飙升200%?这5个隐藏配置你必须知道!
前端·人工智能·后端
yiyu071617 小时前
3分钟搞懂深度学习AI:反向传播:链式法则的归责游戏
人工智能·深度学习
机器之心17 小时前
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
人工智能·openai