机器学习中的自监督学习和无监督学习的区别是什么?

自监督学习(Self-Supervised Learning, SSL) = 模型从输入数据本身生成"标签"进行训练
无监督学习(Unsupervised Learning) = 模型没有标签,只找数据内部结构或规律

核心区别在于:有没有自动生成的训练目标(监督信号)

1. 无监督学习(Unsupervised Learning)

特点

  • 没有任何标签

  • 学习数据的分布或结构

  • 典型任务:

    • 聚类(Clustering):K-Means、DBSCAN
    • 降维(Dimensionality Reduction):PCA、t-SNE、UMAP
    • 密度估计(Density Estimation)

直观例子

python 复制代码
from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1,2],[1,4],[1,0],[10,2],[10,4],[10,0]])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_)
  • 模型没标签,但能自动分出两类数据

2. 自监督学习(Self-Supervised Learning)

特点

  • 没有人工标签,但模型自己从数据生成"伪标签"
  • 目标就是设计一个预测任务,让模型学习特征表示
  • 是监督学习的一种特殊形式

典型任务

  1. BERT:掩码语言模型 (Masked Language Modeling)

    • 输入:The cat [MASK] on the mat
    • 目标(伪标签):预测 [MASK] = sat
  2. GPT:自回归语言模型

    • 输入:前 n 个 token
    • 目标(伪标签):预测下一个 token
  3. 图像自监督

    • 对比学习(SimCLR, MoCo)
    • 随机增强同一张图片 → 让模型学习相似性

3. 核心区别对比

特性 无监督 自监督
标签 没有 模型自己生成(伪标签)
学习目标 发现结构 预测或重建
任务例子 聚类、降维 语言模型、对比学习
监督信号 有(自动生成)
训练方式 通常用概率或距离 用标准监督学习的 loss
相关推荐
威迪斯特3 分钟前
AI智能分析系统在展厅的应用解决方案
人工智能·人脸识别·降本增效·算法分析·展厅·aibox·边缘分析
量子猫AI3 分钟前
openclaw常用Skill分享
人工智能
peterfei15 分钟前
若爱 IfAI v0.4.2 发布:技能市场上线,重新定义 AI 编辑器的可扩展性
人工智能·开源
阿杰学AI22 分钟前
AI核心知识129—大语言模型之 向量数据库(简洁且通俗易懂版)
数据库·人工智能·ai·语言模型·自然语言处理·向量数据库·vector database
PILIPALAPENG28 分钟前
第3周 Day 2:Function Calling —— 让 Agent 听懂人话,自己干活
前端·人工智能·python
阿里云大数据AI技术39 分钟前
PAI Physical AI Notebook详解8:Isaac Lab Arena 全身机器人机动+操控工作流
人工智能
高木木的博客1 小时前
数字架构智能化测试平台(1)--总纲
人工智能·python·nginx·架构
wanghowie1 小时前
11. AI 客服系统架构设计:不是调 API,而是系统工程
人工智能·系统架构
袋鼠云数栈UED团队1 小时前
基于 OpenSpec 实现规范驱动开发
前端·人工智能
Raink老师1 小时前
【AI面试临阵磨枪】什么是 Tokenization?子词分词(Subword)的优缺点?
人工智能·ai 面试