1.自监督学习 (Self-supervised Learning)
自监督学习是一种无监督学习 的范式。它不依赖人工标注的标签,而是从数据本身自动构造出监督信号 ,让模型通过完成某个" pretext task "(前置任务/代理任务)来学习有用的特征表示。
核心思想:把数据的一部分作为输入,另一部分作为"伪标签",让模型学习它们之间的映射关系。训练完成后,通常会丢掉 pretext task 的输出层,将学到的特征迁移到下游任务(如图像分类、目标检测、语义分割等)中。
2.Bert和GPT
2.1 Bert(Bidirectional Encoder Representations from Transformers),其核心是两个自监督任务:
(1)掩码语言建模(Masked Language Modeling, MLM)
原理 :随机将输入句子中 15% 的 token 替换为 [MASK],然后让模型根据上下文(双向信息)预测被遮盖的词。
作用 :强迫模型学习词之间的双向依赖关系,获得深层次的语言理解能力。
自监督性质 :监督信号来自文本本身(原始 token 就是标签),无需人工标注。
(2)下一句预测(Next Sentence Prediction, NSP)
原理 :输入两个句子 A 和 B,以 50% 的概率让 B 是 A 的真实下一句,50% 的概率从语料中随机抽取无关句子。模型预测 B 是否是 A 的下一句。
作用 :让模型理解句子间的关系,对问答、自然语言推理等任务有帮助(后续研究发现 NSP 的作用有争议,RoBERTa 等模型将其去掉)。
架构特点 :BERT 是多层双向 Transformer 编码器,能同时看到 token 左右两侧的上下文。预训练完成后,通常在下游任务上添加一个简单的分类层进行微调。
2.2 GPT(Generative Pre-trained Transformer):通过一个简单而强大的任务自回归语言建模从海量无标注文本中学习语言规律,无需任何人工标签。
输入 :原始文本经过 tokenizer 切分成 token 序列。
模型 :Transformer 解码器架构(单向),使用因果掩码(causal masking)确保每个位置只能看到它之前的 token,不能看到未来的 token。
预测:在每个位置,模型输出一个概率分布,覆盖整个词表,然后用交叉熵损失与真实 token 对比。
| 对比项 | GPT(自回归) | BERT(掩码语言模型) |
|---|---|---|
| 自监督任务 | 预测下一个词 | 预测被掩码的词 |
| 上下文方向 | 单向(从左到右) | 双向(同时看左右) |
| 典型能力 | 文本生成、续写 | 文本理解、分类、抽取 |
| 下游适应 | 上下文学习、微调 | 微调为主 |
3.自监督学习的主要范式
3.1 生成式方法(Generative Approach)
-
图像领域 :
MAE(Masked Autoencoder):随机遮盖图像的大部分块(如 75%),编码器只处理可见块,轻量解码器负责重建被遮盖的像素,迫使编码器学习到全局语义。 -
文本领域 :
BERT 的 MLM:随机遮盖输入 token,模型预测被遮盖的原始词。 -
语音领域 :
wav2vec 2.0 中的掩码预测:掩盖部分时间步,模型预测对应的量化表示,属于生成式/预测式的混合。
3.2 预测式方法(Predictive Approach)
-
图像领域 :
预测图像旋转角度(RotNet):对图像施加旋转(0°、90°、180°、270°),模型预测旋转类别。
-
文本领域 :
GPT 的自回归语言模型 :预测下一个词,属于典型的预测式任务。
BERT 的下一句预测(NSP):预测两个句子是否在原文中相邻。 -
语音领域 :
CPC(Contrastive Predictive Coding):利用历史上下文预测未来帧的表示,并通过对比损失区分正确预测与随机负样本。
3.3 对比学习(Contrastive Learning)
-
图像领域 :
SimCLR:同一图像经不同数据增强得到两个视图作为正对,batch 内其他图像的视图作为负对,使用 InfoNCE 损失。 -
文本领域 :
SimCSE:对同一句子使用不同的 dropout mask 作为正对,batch 内其他句子作为负对,提升句子向量的语义对齐。 -
语音领域 :
wav2vec 2.0 的对比损失:在编码器输出与量化表示之间进行对比,将同一时间步的量化表示作为正样本,其他时间步作为负样本。
3.4 自举方法(Bootstrapping Approaches)
-
图像领域 :
BYOL :在线网络预测目标网络的输出,目标网络通过动量方式从在线网络更新,无负样本。SimSiam :简化 BYOL,直接最大化两个视图的相似性,并在一侧使用 stop-gradient,结构更简单。
DINO:采用自蒸馏框架,教师网络(动量更新)为学生网络提供目标,配合中心化操作,在 ViT 上表现突出。 -
文本/语音领域 :
Data2Vec:统一框架,对同一样本的不同视图(如图像、语音、文本)采用教师-学生结构,预测掩码区域的连续表示。
3.5 简单额外正则化(Simply Extra Regularization)
- Barlow Twins:通过让不同视图的互相关矩阵接近单位矩阵来实现正则化,避免坍塌。
| 范式 | 核心思想 | 代表性方法 | 优缺点 |
|---|---|---|---|
| 生成式 | 重构输入(部分) | MAE, BERT MLM | 简单直观,但可能过度关注细节 |
| 预测式 | 预测数据属性或未来 | RotNet, GPT, CPC | 可引导高层语义,但任务设计关键 |
| 对比学习 | 拉近正对,推开负对 | SimCLR, MoCo, SimCSE | 效果突出,依赖负样本和增强 |
| 自举方法 | 无负样本,利用不对称结构 | BYOL, SimSiam, DINO | 避免负样本,但需防坍塌 |
| 额外正则化 | 辅助损失或数据增强 | Barlow Twins, 数据增强 | 增强稳定性,常作为补充 |
补充:
本文章中提到的GPT模型让我想起了大模型Chat-GPT,所以我询问AI,大模型Chat-GPT是否是运用了GPT模型,如下是deepseek的回答:
