联合嵌入预测架构（JEPA）

一、引言

1.1 研究背景

2022 年，图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 在《A Path Towards Autonomous Machine Intelligence》一文中系统性提出了联合嵌入预测架构（Joint Embedding Predictive Architecture，简称 JEPA）。该架构的诞生源于对当前人工智能发展路径的深刻反思：以自回归生成为核心的大语言模型在物理常识理解、因果推理和多步规划方面存在固有局限，而真正的通用智能需要构建对世界的内部预测模型。

JEPA 植根于认知科学中的预测编码理论，该理论认为生物神经系统的学习本质是通过预测感官输入来构建世界的内部表征。与传统生成式模型在像素或 token 空间进行重建不同，JEPA 完全在抽象表征空间中执行预测任务，使模型专注于捕捉数据中可预测的语义规律，同时忽略难以预测且与高层任务无关的低层细节。

1.2 核心思想

JEPA 的核心范式可概括为：给定输入的上下文部分（如图像可见区域、历史视频帧），在潜在嵌入空间中预测目标部分（如被掩码区域、未来帧）的抽象表示。其本质是一种非生成式自监督学习方法，不追求逐像素重建，而是通过预测高维语义表征来学习数据的内在结构。

这一设计哲学带来了三个关键优势：一是避免了生成式方法在处理不确定性时的模糊化问题；二是无需依赖手工设计的数据增强策略；三是计算效率显著提升，因为无需沉重的解码器模块来生成高分辨率输出。

二、核心架构与算法原理

2.1 整体架构

JEPA 采用非对称的三网络结构设计，由三大核心模块构成：上下文编码器（Context Encoder）、目标编码器（Target Encoder）和预测器（Predictor）。

数学形式化定义：

上下文输入经上下文编码器映射为上下文表征：
目标输入经目标编码器映射为目标表征：
预测器基于上下文表征和辅助变量生成预测目标表征：
训练目标最小化预测表征与真实目标表征之间的距离：

其中辅助变量通常为掩码位置编码或时间步信息，用于告知预测器需要预测的具体位置或时刻。

2.2 三大核心组件

2.2.1 上下文编码器

上下文编码器负责处理可见的输入部分，提取丰富的语义特征。在视觉任务中通常采用 Vision Transformer 架构，仅对未掩码的图像块进行编码。该编码器通过梯度反向传播进行参数更新，是整个模型学习特征提取能力的核心载体。

2.2.2 目标编码器

目标编码器处理完整的目标输入，提供高质量的表征作为预测学习的 "教师" 信号。其参数不通过梯度反向传播直接更新，而是采用指数移动平均（EMA）方式从上下文编码器平滑更新：其中动量系数通常设为 0.99 以上。这种动量更新机制有效避免了表征坍缩问题，同时提供了稳定的训练目标。

2.2.3 预测器

预测器是一个相对轻量的网络模块，接收上下文编码器输出的全局表征和目标位置掩码令牌，输出对应位置的预测表征。在 I-JEPA 的实现中，预测器同样采用 Transformer 结构，但层数远少于编码器，每次针对一个目标块进行预测，通过掩码令牌指定预测位置。

2.3 掩码策略

JEPA 采用多块掩码（Multi-block Masking）策略，将输入划分为多个不重叠的目标块进行预测。以图像为例：

随机选择若干个矩形区域作为目标掩码块
剩余区域作为上下文输入
预测器逐个预测每个掩码块的表征
损失在所有目标块上取平均

这种策略强制模型学习长程空间依赖关系，因为预测一个区域往往需要综合远距离的上下文信息。

2.4 损失函数与正则化

基础预测损失

JEPA 的基础损失为预测表征与目标表征之间的 L2 距离：其中为目标块数量，为第个目标块包含的所有 patch 索引。

表征坍缩的防范

单纯的预测损失容易导致模型退化为平凡解（所有表征收敛到同一点）。JEPA 通过以下机制避免坍缩：

EMA 目标编码器：提供稳定且多样化的目标信号
不对称架构：上下文编码器与目标编码器参数不同步
VICReg 正则化：在部分变体中引入方差 - 不变性 - 协方差正则化，包括：
- 方差损失：保证批次内各维度表征有足够方差
- 协方差损失：促使表征维度去相关
- 不变性损失：确保相关视图表征接近

三、与主流自监督范式的对比

3.1 三类自监督方法的本质差异

自监督学习主要分为生成式、对比式和联合嵌入预测三大流派，JEPA 代表了第三条技术路线。

|--------|-----------------|-------------------|---------------|
| 特性维度 | 生成式方法（MAE、VAE） | 对比学习（SimCLR、MoCo） | JEPA |
| 预测空间 | 像素 / Token 原始空间 | 表征空间 | 表征空间 |
| 监督信号来源 | 输入重建 | 正负样本区分 | 跨视图表征预测 |
| 数据增强依赖 | 不依赖 | 强依赖 | 不依赖 |
| 语义层级 | 偏低层细节 | 偏高层语义 | 高层语义 |
| 计算开销 | 较高（需解码器） | 中等（需大批量） | 较低 |
| 坍缩风险 | 低 | 中 | 较高（需 EMA 等机制） |
| 模态通用性 | 好 | 受限 | 好 |

3.2 与生成式掩码建模的区别

以 MAE 为代表的掩码图像建模与 JEPA 同样采用掩码 - 预测范式，但存在本质区别：

预测目标不同：MAE 预测原始像素值，JEPA 预测抽象嵌入向量
监督位置不同：MAE 损失在输入空间计算，JEPA 损失在表征空间计算
学习侧重不同：MAE 被迫保留低层细节以完成重建，JEPA 可自动忽略不可预测的噪声，专注语义结构
解码器需求不同：MAE 需要沉重解码器映射回像素空间，JEPA 无需解码器

从认知角度类比：重建任务要求记住 "每片草叶的精确位置"，而 JEPA 只需要理解 "这是一片草地"，后者更接近人类的抽象认知方式。

3.3 与对比学习的区别

对比学习通过拉近正样本对、推远负样本对来学习表征，而 JEPA 无需负样本：

对比学习依赖精心设计的数据增强来构造正样本对，需要大批量负样本，增强策略的质量直接决定最终性能
JEPA从数据内部的空间 / 时间连续性中天然获取监督信号，无需人工设计增强，避免了增强先验带来的归纳偏置
信息利用效率：JEPA 单个样本即可产生多个预测目标，数据利用率更高

四、典型变体与跨模态扩展

4.1 I-JEPA：图像领域的奠基之作

2023 年 CVPR 发表的 I-JEPA（Image JEPA）是 JEPA 思想首个成功的大规模视觉实现。其核心设计包括：

采用 ViT-H/14 骨干网络，在 ImageNet-1K 上进行自监督预训练
多块掩码策略：随机采样 4 个大小可变的矩形掩码块
预测器为浅层 Transformer，逐块预测目标表征
目标编码器采用 EMA 动量更新

实验性能：在 ImageNet 线性探测任务上，I-JEPA ViT-H 达到 81.1% 准确率，训练计算量仅为 MAE 的约 1/4，同时在语义分割、目标检测等下游迁移任务上表现更优。在低层次视觉任务（深度估计、对象计数）上也优于纯对比学习方法。

4.2 V-JEPA：视频动态建模

V-JEPA 将 JEPA 扩展至视频领域，通过历史帧预测未来帧的表征，学习物理世界的动态规律。其核心进展包括：

时空联合掩码：同时在空间和时间维度进行掩码
因果预测：仅使用过去和当前帧预测未来帧表征
无需像素重建即可学习高质量的视频表示

V-JEPA 验证了 JEPA 作为世界模型基础架构的可行性 ------ 模型能够在抽象层面预测环境状态的演化，而无需渲染每一个像素。

4.3 其他模态扩展

JEPA 架构展现了极强的模态通用性，已成功迁移至多个领域：

A-JEPA：音频领域应用，对频谱图进行掩码预测，在语音识别、声音分类任务上取得优异结果，采用课程式掩码策略逐步提升学习难度
Point-JEPA：点云自监督学习，在 3D 目标检测、点云分类任务上验证了有效性，采用 BEV 引导的掩码策略适配点云稀疏特性
VL-JEPA：视觉 - 语言联合建模，以视觉表征预测文本表征，实现跨模态对齐。相比传统 VLM，参数量减半但性能相当，且支持非自回归的流式推理，延迟显著降低
Var-JEPA：变分 JEPA，引入隐变量建模预测的不确定性，桥接预测式与生成式自监督学习

五、技术优势与核心价值

5.1 计算效率优势

JEPA 在训练效率上具有显著优势：

无解码器开销：无需将表征映射回高维输入空间，参数量和计算量大幅减少
单样本多监督：一个样本可生成多个预测目标，数据利用率高
收敛速度快：表征空间的预测任务比像素重建更容易学习

实验数据表明，达到同等线性探测精度，I-JEPA 所需的 GPU 训练小时数仅为 MAE、CAE 等生成式方法的 1/3 到 1/4。

5.2 表征质量优势

JEPA 学习到的表征具有以下特性：

语义抽象度高：自动过滤低层噪声，保留核心语义信息
鲁棒性强：对输入扰动、纹理变化不敏感，更关注物体结构和语义
迁移性好：在跨数据集、跨任务迁移中表现稳定，尤其适合语义级下游任务
空间一致性：学习到的特征具备良好的几何结构和空间对应关系

5.3 世界模型的天然底座

JEPA 被 LeCun 视为构建世界模型的核心组件，原因在于：

抽象预测：世界模型只需预测状态的语义层面，无需渲染细节
多模态统一：同一架构可处理视觉、音频、文本等多种模态
高效推理：前向一次即可完成预测，无需自回归逐步生成
不确定性兼容：嵌入空间中多种合理未来状态可自然聚类，避免生成式模型的平均模糊问题

六、局限性与挑战

6.1 表征坍缩风险

JEPA 训练的核心挑战是表征坍缩（Representation Collapse）。若缺乏有效正则化，模型可能输出恒定的平凡解，此时预测损失为零但表征毫无信息。虽然 EMA 机制在很大程度上缓解了这一问题，但在某些模态和超参数设置下仍可能出现。

6.2 目标编码器的滞后性

EMA 更新机制导致目标编码器始终滞后于上下文编码器，这种滞后虽然提供了训练稳定性，但也限制了学习速度。动量系数的选择是稳定性与学习速率之间的权衡。

6.3 解码代价

JEPA 的优势在于不生成原始数据，但当应用需要实际输出（如图像生成、文本输出）时，仍需额外训练解码器从嵌入空间映射回输入空间。不过这一过程可在预训练完成后独立进行，且仅在需要生成输出时才调用。

6.4 理论基础待完善

相较于对比学习有坚实的互信息理论支撑，JEPA 的理论解释仍在发展中。目前关于 JEPA 为何有效、学习的是什么样的特征、其最优解的性质等问题，尚缺乏完整的理论刻画。

七、发展趋势与未来方向

7.1 架构演进方向

条件化增强：引入更多条件变量（如动作、文本、属性），使预测更可控、更精细。TC-JEPA 等工作已开始探索文本条件的 JEPA 训练
分层预测：构建多尺度、多层次的预测架构，同时建模低层细节和高层语义
记忆机制：引入外部记忆模块，支持长时序预测和知识积累

7.2 应用场景拓展

自动驾驶：学习车辆和行人的运动规律，构建环境动态预测模型
机器人：学习物理交互的结果表征，支持零样本策略泛化
强化学习：作为世界模型组件，加速策略学习和规划
医学影像：利用大量无标注医学数据进行预训练，提升小样本诊断性能

7.3 与生成式方法的融合

Var-JEPA 等工作已开始探索 JEPA 与生成模型的结合。未来可能的方向是：JEPA 负责抽象语义层面的预测与推理，生成模型负责将抽象表征渲染为具体输出，二者优势互补，构建 "抽象预测 + 具象生成" 的混合架构。

八、总结

联合嵌入预测架构（JEPA）代表了自监督学习领域的第三条技术路线，其核心创新在于将预测任务从输入空间提升至抽象表征空间。通过上下文编码器、EMA 目标编码器和轻量预测器的非对称设计，JEPA 在不依赖数据增强、不进行像素重建的前提下，能够学习到高质量、高语义的特征表示。

从 I-JEPA 在图像领域的验证，到 V-JEPA、A-JEPA、VL-JEPA 等跨模态扩展，JEPA 已从理论构想发展为一套成熟的技术范式。其计算高效、语义抽象、模态通用的特性，使其成为构建世界模型、迈向自主智能的重要基础架构。

尽管仍面临表征坍缩、理论不完备等挑战，但 JEPA 所代表的 "抽象预测" 思想正在深刻影响人工智能的发展方向。随着技术的持续演进和应用场景的不断拓展，JEPA 有望在下一代人工智能系统中扮演核心角色。