JEPA：联合嵌入预测架构介绍 ——学习笔记

JEPA 全称是 Joint Embedding Predictive Architecture（联合嵌入预测架构），是图灵奖得主、Meta首席AI科学家 Yann LeCun（杨立昆）从2022年开始大力推动的一种全新自监督学习架构。

它被很多人视为是"下一代AI范式"的重要候选之一，尤其被认为是通往真正理解物理世界、具备规划和推理能力的世界模型（World Model）的关键技术路径。

当前主流大模型主要靠两种方式学习：

LeCun 认为这两种方式都有致命问题：

JEPA 的核心思路非常简洁粗暴：

不在像素/单词层面做精确重建，而是在高度抽象的表征（embedding）空间里做预测。

JEPA 家族的核心定位是预测能力：模型通过预测被遮蔽、被未来、或被其他视角的部分，来强制学习场景的内在结构、因果关系和物理规律，而不是死记硬背像素或单词。

主要成员发展时间线如下：

2022 年 6 月：Yann LeCun 发布《A Path Towards Autonomous Machine Intelligence》，首次系统定义"世界模型"概念，并提出 JEPA 作为非生成式预测架构的核心。
2023 年 4 月：Meta 推出 I-JEPA（图像版 JEPA），第一个落地实现，证明了在抽象表征空间预测的有效性。
2024 年 2 月：V-JEPA（视频版 JEPA）发布，正好在 Sora 公布次日，展示了 JEPA 在动态世界理解上的潜力。
2024 年 3 月：发布 IWM（Image World Model），进一步强化图像世界模型能力。
2025 年及以后：V-JEPA 2、VL-JEPA、LLM-JEPA 等迭代版本陆续出现，逐步向多模态、语言、机器人规划方向扩展。

JEPA 强调：不追求像素级/ token 级完美重建，而是捕获可预测的语义本质。这让它在噪声鲁棒性、多模态一致性、长期预测上天然具有优势。

要理解 JEPA 如何走向自主智能，先回顾经典强化学习（RL）交互框架：

传统 RL 面临"样本效率低""探索-利用困境""奖励稀疏"等难题，而 JEPA 试图通过强大的世界模型来大幅缓解这些问题。

LeCun 提出的完整自主智能架构包含六大核心模块，JEPA 主要充当"World Model"角色：

模块闭环逻辑：感知 → 短期记忆 → 世界模型预测 → 代价评估 → 行动输出 → 配置器调整，形成完整自主决策循环。

最基本的单步交互

：

定位：即时、反应式智能，适合快速响应任务。

在 Mode-1 基础上扩展为多步时序链：

定位：长期规划智能，适合需要前瞻、权衡未来多步后果的任务。

JEPA 直指当前 AI 最大瓶颈------世界模型的架构与训练范式。其主要创新包括：

核心流程（以视频为例）：

I-JEPA（图像世界模型的起点）
- 创新：不生成像素，只预测遮蔽区域的语义表征。
- 借鉴 MAE 的大块掩码 + 上下文预测。
- 结果：学到高度语义化的表示，直接适配分类、检测、深度估计等下游任务。
V-JEPA（动态世界理解的关键）
- 扩展到视频：用历史片段表征预测未来/遮蔽片段表征。
- 采用 EMA 更新目标编码器 + stop-gradient 稳定训练。
- 结果：时空语义强大，在动作识别、未来预测、因果推理上表现出色。
- V-JEPA 2 进一步实现零样本机器人控制，展示规划能力。

名字	主要处理模态	发布年份	核心特点	论文/arxiv
I-JEPA	图像	2023	最早落地的图像版JEPA	https://arxiv.org/abs/2301.08243
V-JEPA	视频	2024	非生成式视频理解世界模型	https://arxiv.org/abs/2404.08471
V-JEPA 2	视频	2025	更强的物理世界预测 & 规划能力	Meta 最新版（VivaTech 展示）
LLM-JEPA	语言	2025	把JEPA思想用到大语言模型上	https://arxiv.org/abs/2509.14252
LeJEPA	通用	2025	更理论化、无需大量trick、可证明的版本	https://arxiv.org/abs/2511.08544