JEPA到LeWM的网络结构演化全解析

一、JEPA（联合嵌入预测架构）核心网络结构（2022）

JEPA的原始设计是三组件架构 ，核心思想是在潜在空间预测目标表征，而非像素重建：

组件	功能	典型实现	参数更新方式
上下文编码器(Eₓ)	处理可见输入，提取上下文特征	ViT/CNN，将输入映射到潜在空间	梯度下降直接优化
目标编码器(Eᵧ)	处理目标区域，提供稳定目标表征	与Eₓ结构完全相同	EMA（指数移动平均）更新，避免训练坍塌
预测器§	基于上下文预测目标表征	轻量级Transformer/MLP	梯度下降优化

工作流程

输入被划分为可见上下文区域 和被遮盖目标区域
Eₓ编码上下文区域→zₓ
Eᵧ编码目标区域→zᵧ（EMA更新）
P接收zₓ→预测目标表征ẑᵧ
损失函数：最小化ẑᵧ与zᵧ的距离（MSE/对比损失）

关键设计理念

表征空间预测：避免像素级重建的高成本与噪声干扰
EMA目标编码器：借鉴MoCo动量机制，提供稳定训练信号
无生成组件：不包含解码器，专注于预测而非生成

二、演化阶段一：I-JEPA（图像JEPA，2023）--- JEPA首次落地

I-JEPA将JEPA架构首次应用于图像自监督学习，结构上有以下调整：

编码器优化：
- 采用ViT-L/16作为Eₓ和Eᵧ的基础架构，输入图像分块14×14
- 支持多尺度掩码（块级/区域级/全局级），提升上下文理解能力
预测器增强：
- 引入分层预测：预测不同尺度的目标表征
- 加入VICReg损失辅助训练，进一步防止表征坍塌
训练创新：
- 提出块掩码策略：随机遮盖图像中75%的块，迫使模型学习全局结构
- 保留EMA目标编码器，确保训练稳定性

三、演化阶段二：V-JEPA（视频JEPA，2024-2025）--- 动态世界理解

V-JEPA将JEPA扩展到视频领域，适配时间维度的动态预测：

架构扩展：
- 编码器升级为时空ViT：在空间维度基础上增加时间维度建模
- 支持视频帧序列输入，处理时空上下文与目标区域
预测器革新：
- 加入时间注意力机制：捕捉帧间动态关系
- 实现多步预测：可预测未来多个时刻的表征
V-JEPA2.1优化：
- 编码器参数增加到ViT-L/14，提升表征能力
- 引入对比学习辅助损失，增强时空一致性
- 支持零样本视频规划，为机器人应用奠定基础

四、演化阶段三：PLDM（预测性潜在动态模型，2025）--- 世界模型方向探索

PLDM是JEPA向具身智能/机器人控制转型的关键尝试：

架构重构：
- 保留编码器+预测器 核心，但目标编码器Eᵧ被移除
- 预测器升级为动态预测器：接收当前状态+动作→预测下一状态
关键变化：
- 动作嵌入：首次引入动作空间，适配机器人控制场景
- 多损失函数：使用7项损失组合（预测损失、对比损失、正则化等），确保训练稳定
- 编码器需外部预训练（如用V-JEPA2.1初始化），增加部署复杂度
局限：
- 多损失组合导致工程复杂度高
- 依赖预训练编码器，无法端到端训练原始像素

五、终极形态：LeWorldModel（LeWM，2026）--- JEPA极简主义革命

LeWM将JEPA架构简化到极致 ，实现单GPU可训、端到端稳定训练的突破：

核心结构：双组件架构（移除EMA目标编码器）

组件	功能	具体实现	参数规模	关键创新
编码器(E)	将像素观测映射到潜在空间	ViT-Tiny（12层，3头，192维）	5M参数	移除LayerNorm，添加单层MLP+BN投影，适配防坍塌优化
预测器§	基于当前状态+动作预测下一状态	6层Transformer（16头，10%dropout）	10M参数	动作通过Adaptive LayerNorm(adaln)每一层注入，参数初始化为零

革命性变化对比表

架构维度	JEPA/I-JEPA/V-JEPA	LeWM	影响
组件数量	3（Eₓ+Eᵧ+P）	2（E+P）	移除EMA编码器，降低33%复杂度
目标编码器	必需（EMA更新）	完全移除	消除EMA维护成本，简化训练流程
训练损失	多损失组合（≥3项）	仅2项： 1. 下一状态预测损失 2. SIGReg（高斯正则化）	从6+超参数→仅1个核心超参数
编码器训练	依赖外部预训练/EMA	端到端训练原始像素	无需预训练，降低部署门槛
动作注入	无/简单拼接	Adaln分层注入	动作信息更有效融入预测，提升动态建模能力
参数规模	数百M→数B	仅15M	单GPU可训，训练时间从数周→几小时

训练原理革新

SIGReg正则化：强制潜在嵌入服从高斯分布，从根本解决表征坍塌，替代EMA机制
纯潜在空间预测 ：不生成像素，只预测抽象特征，规划速度提升48倍
端到端优化：从原始像素→潜在表征→动态预测，全程无人工干预

三、核心演化脉络总结

Plain 复制代码

JEPA(2022) → I-JEPA(2023) → V-JEPA(2024) → V-JEPA2.1(2025) → PLDM(2025) → LeWM(2026)
  三组件架构    图像落地      视频扩展      时空增强        动态探索        极简革命
  Eₓ+Eᵧ+P      块掩码        时空ViT       多步预测        动作引入        E+P双组件
  EMA编码器     VICReg损失    时间注意力    零样本规划      多损失组合      SIGReg正则
                                                           预训练依赖      端到端训练

关键演进逻辑

组件精简：从3组件→2组件，移除EMA目标编码器，降低复杂度
功能聚焦 ：从通用表征学习→动态世界模型，适配机器人控制场景
训练简化 ：从多损失+EMA→双损失+SIGReg，实现端到端稳定训练
效率提升：参数从数B→15M，训练从多GPU→单GPU，规划速度提升48倍

LeWM并非从零开始，而是杨立昆团队对JEPA理念的终极极简实现，保留了"潜在空间预测"核心，同时解决了历史版本的训练不稳定、工程复杂、部署成本高等痛点，为世界模型产业化提供了可行路径。