一、JEPA(联合嵌入预测架构)核心网络结构(2022)
JEPA的原始设计是三组件架构 ,核心思想是在潜在空间预测目标表征,而非像素重建:
| 组件 | 功能 | 典型实现 | 参数更新方式 |
|---|---|---|---|
| 上下文编码器(Eₓ) | 处理可见输入,提取上下文特征 | ViT/CNN,将输入映射到潜在空间 | 梯度下降直接优化 |
| 目标编码器(Eᵧ) | 处理目标区域,提供稳定目标表征 | 与Eₓ结构完全相同 | **EMA(指数移动平均)**更新,避免训练坍塌 |
| 预测器§ | 基于上下文预测目标表征 | 轻量级Transformer/MLP | 梯度下降优化 |
工作流程
-
输入被划分为可见上下文区域 和被遮盖目标区域
-
Eₓ编码上下文区域→zₓ
-
Eᵧ编码目标区域→zᵧ(EMA更新)
-
P接收zₓ→预测目标表征ẑᵧ
-
损失函数:最小化ẑᵧ与zᵧ的距离(MSE/对比损失)
关键设计理念
-
表征空间预测:避免像素级重建的高成本与噪声干扰
-
EMA目标编码器:借鉴MoCo动量机制,提供稳定训练信号
-
无生成组件:不包含解码器,专注于预测而非生成
二、演化阶段一:I-JEPA(图像JEPA,2023)--- JEPA首次落地
I-JEPA将JEPA架构首次应用于图像自监督学习,结构上有以下调整:
-
编码器优化:
-
采用ViT-L/16作为Eₓ和Eᵧ的基础架构,输入图像分块14×14
-
支持多尺度掩码(块级/区域级/全局级),提升上下文理解能力
-
-
预测器增强:
-
引入分层预测:预测不同尺度的目标表征
-
加入VICReg损失辅助训练,进一步防止表征坍塌
-
-
训练创新:
-
提出块掩码策略:随机遮盖图像中75%的块,迫使模型学习全局结构
-
保留EMA目标编码器,确保训练稳定性
-
三、演化阶段二:V-JEPA(视频JEPA,2024-2025)--- 动态世界理解
V-JEPA将JEPA扩展到视频领域,适配时间维度的动态预测:
-
架构扩展:
-
编码器升级为时空ViT:在空间维度基础上增加时间维度建模
-
支持视频帧序列输入,处理时空上下文与目标区域
-
-
预测器革新:
-
加入时间注意力机制:捕捉帧间动态关系
-
实现多步预测:可预测未来多个时刻的表征
-
-
V-JEPA2.1优化:
-
编码器参数增加到ViT-L/14,提升表征能力
-
引入对比学习辅助损失,增强时空一致性
-
支持零样本视频规划,为机器人应用奠定基础
-
四、演化阶段三:PLDM(预测性潜在动态模型,2025)--- 世界模型方向探索
PLDM是JEPA向具身智能/机器人控制转型的关键尝试:
-
架构重构:
-
保留编码器+预测器 核心,但目标编码器Eᵧ被移除
-
预测器升级为动态预测器:接收当前状态+动作→预测下一状态
-
-
关键变化:
-
动作嵌入:首次引入动作空间,适配机器人控制场景
-
多损失函数:使用7项损失组合(预测损失、对比损失、正则化等),确保训练稳定
-
编码器需外部预训练(如用V-JEPA2.1初始化),增加部署复杂度
-
-
局限:
-
多损失组合导致工程复杂度高
-
依赖预训练编码器,无法端到端训练原始像素
-
五、终极形态:LeWorldModel(LeWM,2026)--- JEPA极简主义革命
LeWM将JEPA架构简化到极致 ,实现单GPU可训、端到端稳定训练的突破:
核心结构:双组件架构(移除EMA目标编码器)
| 组件 | 功能 | 具体实现 | 参数规模 | 关键创新 |
|---|---|---|---|---|
| 编码器(E) | 将像素观测映射到潜在空间 | ViT-Tiny(12层,3头,192维) | 5M参数 | 移除LayerNorm,添加单层MLP+BN投影,适配防坍塌优化 |
| 预测器§ | 基于当前状态+动作预测下一状态 | 6层Transformer(16头,10%dropout) | 10M参数 | 动作通过**Adaptive LayerNorm(adaln)**每一层注入,参数初始化为零 |
革命性变化对比表
| 架构维度 | JEPA/I-JEPA/V-JEPA | LeWM | 影响 |
|---|---|---|---|
| 组件数量 | 3(Eₓ+Eᵧ+P) | 2(E+P) | 移除EMA编码器,降低33%复杂度 |
| 目标编码器 | 必需(EMA更新) | 完全移除 | 消除EMA维护成本,简化训练流程 |
| 训练损失 | 多损失组合(≥3项) | 仅2项 : 1. 下一状态预测损失 2. SIGReg(高斯正则化) | 从6+超参数→仅1个核心超参数 |
| 编码器训练 | 依赖外部预训练/EMA | 端到端训练原始像素 | 无需预训练,降低部署门槛 |
| 动作注入 | 无/简单拼接 | Adaln分层注入 | 动作信息更有效融入预测,提升动态建模能力 |
| 参数规模 | 数百M→数B | 仅15M | 单GPU可训,训练时间从数周→几小时 |
训练原理革新
-
SIGReg正则化:强制潜在嵌入服从高斯分布,从根本解决表征坍塌,替代EMA机制
-
纯潜在空间预测 :不生成像素,只预测抽象特征,规划速度提升48倍
-
端到端优化:从原始像素→潜在表征→动态预测,全程无人工干预
三、核心演化脉络总结
Plain
JEPA(2022) → I-JEPA(2023) → V-JEPA(2024) → V-JEPA2.1(2025) → PLDM(2025) → LeWM(2026)
三组件架构 图像落地 视频扩展 时空增强 动态探索 极简革命
Eₓ+Eᵧ+P 块掩码 时空ViT 多步预测 动作引入 E+P双组件
EMA编码器 VICReg损失 时间注意力 零样本规划 多损失组合 SIGReg正则
预训练依赖 端到端训练
关键演进逻辑
-
组件精简:从3组件→2组件,移除EMA目标编码器,降低复杂度
-
功能聚焦 :从通用表征学习→动态世界模型,适配机器人控制场景
-
训练简化 :从多损失+EMA→双损失+SIGReg,实现端到端稳定训练
-
效率提升:参数从数B→15M,训练从多GPU→单GPU,规划速度提升48倍
LeWM并非从零开始,而是杨立昆团队对JEPA理念的终极极简实现,保留了"潜在空间预测"核心,同时解决了历史版本的训练不稳定、工程复杂、部署成本高等痛点,为世界模型产业化提供了可行路径。