JEPA到LeWM的网络结构演化全解析

一、JEPA(联合嵌入预测架构)核心网络结构(2022)

JEPA的原始设计是三组件架构 ,核心思想是在潜在空间预测目标表征,而非像素重建:

组件 功能 典型实现 参数更新方式
上下文编码器(Eₓ) 处理可见输入,提取上下文特征 ViT/CNN,将输入映射到潜在空间 梯度下降直接优化
目标编码器(Eᵧ) 处理目标区域,提供稳定目标表征 与Eₓ结构完全相同 **EMA(指数移动平均)**更新,避免训练坍塌
预测器§ 基于上下文预测目标表征 轻量级Transformer/MLP 梯度下降优化

工作流程

  1. 输入被划分为可见上下文区域被遮盖目标区域

  2. Eₓ编码上下文区域→zₓ

  3. Eᵧ编码目标区域→zᵧ(EMA更新)

  4. P接收zₓ→预测目标表征ẑᵧ

  5. 损失函数:最小化ẑᵧ与zᵧ的距离(MSE/对比损失)

关键设计理念

  • 表征空间预测:避免像素级重建的高成本与噪声干扰

  • EMA目标编码器:借鉴MoCo动量机制,提供稳定训练信号

  • 无生成组件:不包含解码器,专注于预测而非生成


二、演化阶段一:I-JEPA(图像JEPA,2023)--- JEPA首次落地

I-JEPA将JEPA架构首次应用于图像自监督学习,结构上有以下调整:

  1. 编码器优化

    • 采用ViT-L/16作为Eₓ和Eᵧ的基础架构,输入图像分块14×14

    • 支持多尺度掩码(块级/区域级/全局级),提升上下文理解能力

  2. 预测器增强

    • 引入分层预测:预测不同尺度的目标表征

    • 加入VICReg损失辅助训练,进一步防止表征坍塌

  3. 训练创新

    • 提出块掩码策略:随机遮盖图像中75%的块,迫使模型学习全局结构

    • 保留EMA目标编码器,确保训练稳定性


三、演化阶段二:V-JEPA(视频JEPA,2024-2025)--- 动态世界理解

V-JEPA将JEPA扩展到视频领域,适配时间维度的动态预测:

  1. 架构扩展

    • 编码器升级为时空ViT:在空间维度基础上增加时间维度建模

    • 支持视频帧序列输入,处理时空上下文与目标区域

  2. 预测器革新

    • 加入时间注意力机制:捕捉帧间动态关系

    • 实现多步预测:可预测未来多个时刻的表征

  3. V-JEPA2.1优化

    • 编码器参数增加到ViT-L/14,提升表征能力

    • 引入对比学习辅助损失,增强时空一致性

    • 支持零样本视频规划,为机器人应用奠定基础


四、演化阶段三:PLDM(预测性潜在动态模型,2025)--- 世界模型方向探索

PLDM是JEPA向具身智能/机器人控制转型的关键尝试:

  1. 架构重构

    • 保留编码器+预测器 核心,但目标编码器Eᵧ被移除

    • 预测器升级为动态预测器:接收当前状态+动作→预测下一状态

  2. 关键变化

    • 动作嵌入:首次引入动作空间,适配机器人控制场景

    • 多损失函数:使用7项损失组合(预测损失、对比损失、正则化等),确保训练稳定

    • 编码器需外部预训练(如用V-JEPA2.1初始化),增加部署复杂度

  3. 局限

    • 多损失组合导致工程复杂度高

    • 依赖预训练编码器,无法端到端训练原始像素


五、终极形态:LeWorldModel(LeWM,2026)--- JEPA极简主义革命

LeWM将JEPA架构简化到极致 ,实现单GPU可训、端到端稳定训练的突破:

核心结构:双组件架构(移除EMA目标编码器)

组件 功能 具体实现 参数规模 关键创新
编码器(E) 将像素观测映射到潜在空间 ViT-Tiny(12层,3头,192维) 5M参数 移除LayerNorm,添加单层MLP+BN投影,适配防坍塌优化
预测器§ 基于当前状态+动作预测下一状态 6层Transformer(16头,10%dropout) 10M参数 动作通过**Adaptive LayerNorm(adaln)**每一层注入,参数初始化为零

革命性变化对比表

架构维度 JEPA/I-JEPA/V-JEPA LeWM 影响
组件数量 3(Eₓ+Eᵧ+P) 2(E+P) 移除EMA编码器,降低33%复杂度
目标编码器 必需(EMA更新) 完全移除 消除EMA维护成本,简化训练流程
训练损失 多损失组合(≥3项) 仅2项 : 1. 下一状态预测损失 2. SIGReg(高斯正则化) 从6+超参数→仅1个核心超参数
编码器训练 依赖外部预训练/EMA 端到端训练原始像素 无需预训练,降低部署门槛
动作注入 无/简单拼接 Adaln分层注入 动作信息更有效融入预测,提升动态建模能力
参数规模 数百M→数B 仅15M 单GPU可训,训练时间从数周→几小时

训练原理革新

  1. SIGReg正则化:强制潜在嵌入服从高斯分布,从根本解决表征坍塌,替代EMA机制

  2. 纯潜在空间预测 :不生成像素,只预测抽象特征,规划速度提升48倍

  3. 端到端优化:从原始像素→潜在表征→动态预测,全程无人工干预


三、核心演化脉络总结

Plain 复制代码
JEPA(2022) → I-JEPA(2023) → V-JEPA(2024) → V-JEPA2.1(2025) → PLDM(2025) → LeWM(2026)
  三组件架构    图像落地      视频扩展      时空增强        动态探索        极简革命
  Eₓ+Eᵧ+P      块掩码        时空ViT       多步预测        动作引入        E+P双组件
  EMA编码器     VICReg损失    时间注意力    零样本规划      多损失组合      SIGReg正则
                                                           预训练依赖      端到端训练

关键演进逻辑

  1. 组件精简:从3组件→2组件,移除EMA目标编码器,降低复杂度

  2. 功能聚焦 :从通用表征学习→动态世界模型,适配机器人控制场景

  3. 训练简化 :从多损失+EMA→双损失+SIGReg,实现端到端稳定训练

  4. 效率提升:参数从数B→15M,训练从多GPU→单GPU,规划速度提升48倍

LeWM并非从零开始,而是杨立昆团队对JEPA理念的终极极简实现,保留了"潜在空间预测"核心,同时解决了历史版本的训练不稳定、工程复杂、部署成本高等痛点,为世界模型产业化提供了可行路径。

相关推荐
AIminminHu2 小时前
OpenGL渲染与几何内核那点事-项目实践理论补充(二-1-(1):当你的CAD学会“想象”:图形技术与AI融合的三个层次)
c++·人工智能·几何·cad·几何内核·cad开发
weixin_408099672 小时前
文字识别通用OCR接口调用与功能说明
图像处理·人工智能·后端·python·ocr·api·文字识别
小~小2 小时前
openclaw 运行原理
人工智能·openclaw
L-影2 小时前
集成学习:三大流派与实战作用(下篇)
人工智能·机器学习·ai·集成学习
最贪吃的虎2 小时前
我的第一个 RAG 程序:从 0 到 1,用 PDF 搭一个最小可运行的知识库问答系统
人工智能·python·算法·机器学习·aigc·embedding·llama
数字供应链安全产品选型2 小时前
AI 造的 “虾”,AI 如何精准治理?| 多模态SCA技术
人工智能
铅笔侠_小龙虾2 小时前
多分类逻辑回归混淆矩阵
人工智能
深度学习lover2 小时前
<数据集>yolo骑行者识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉
东离与糖宝2 小时前
Spring Boot 3.x面试全攻略:自动配置+事务+AOT,2026最新考点
java·人工智能·面试