机器学习中的自监督学习和无监督学习的区别是什么?

自监督学习(Self-Supervised Learning, SSL) = 模型从输入数据本身生成"标签"进行训练
无监督学习(Unsupervised Learning) = 模型没有标签,只找数据内部结构或规律

核心区别在于:有没有自动生成的训练目标(监督信号)

1. 无监督学习(Unsupervised Learning)

特点

  • 没有任何标签

  • 学习数据的分布或结构

  • 典型任务:

    • 聚类(Clustering):K-Means、DBSCAN
    • 降维(Dimensionality Reduction):PCA、t-SNE、UMAP
    • 密度估计(Density Estimation)

直观例子

python 复制代码
from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1,2],[1,4],[1,0],[10,2],[10,4],[10,0]])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_)
  • 模型没标签,但能自动分出两类数据

2. 自监督学习(Self-Supervised Learning)

特点

  • 没有人工标签,但模型自己从数据生成"伪标签"
  • 目标就是设计一个预测任务,让模型学习特征表示
  • 是监督学习的一种特殊形式

典型任务

  1. BERT:掩码语言模型 (Masked Language Modeling)

    • 输入:The cat [MASK] on the mat
    • 目标(伪标签):预测 [MASK] = sat
  2. GPT:自回归语言模型

    • 输入:前 n 个 token
    • 目标(伪标签):预测下一个 token
  3. 图像自监督

    • 对比学习(SimCLR, MoCo)
    • 随机增强同一张图片 → 让模型学习相似性

3. 核心区别对比

特性 无监督 自监督
标签 没有 模型自己生成(伪标签)
学习目标 发现结构 预测或重建
任务例子 聚类、降维 语言模型、对比学习
监督信号 有(自动生成)
训练方式 通常用概率或距离 用标准监督学习的 loss
相关推荐
冬奇Lab17 小时前
一天一个开源项目(第56篇):人人都能用英语 - AI 时代的外语学习开源项目
人工智能·开源·资讯
前端摸鱼匠18 小时前
【AI大模型春招面试题12】Scaling Laws揭示了模型性能、数据量、计算量之间的什么关系?
人工智能·ai·语言模型·面试·大模型
yuhulkjv33518 小时前
deepseek怎么复制表格
人工智能·ai·chatgpt·豆包·deepseek·ai导出鸭
小陈工18 小时前
2026年3月26日技术资讯洞察:WebAssembly崛起、AI代码质量危机与开源安全新挑战
人工智能·python·安全·架构·开源·fastapi·wasm
云飞云共享云桌面18 小时前
非标自动化研发成本高?云飞云共享云桌面:1台主机=10台工作站,年省数十万。
大数据·运维·服务器·人工智能·自动化·云计算·电脑
㱘郳18 小时前
大语言模型开发与应用V5.0
人工智能·语言模型·自然语言处理
2301_7665586519 小时前
深度解析:矩阵跃动小陌GEO语义场建模原理,筑牢企业AI搜索占位技术壁垒
人工智能·线性代数·矩阵
Lab_AI19 小时前
AI for Science应用:深度学习助力新型靶蛋白的药物从头设计(AIDD助力药物研发)
人工智能·深度学习·aidd·药物发现·新靶点药物设计
AI自动化工坊19 小时前
GitAgent实战解析:用Docker思想解决AI Agent框架碎片化问题,降低80%迁移成本
人工智能·docker·ai·容器·开源
紧固视界19 小时前
3C电子自动化装配加速,微型紧固件需求持续增长_2026上海紧固件展 华网上海展
人工智能·自动化·紧固件·上海紧固件展·紧固件展