Scaling Latent Reasoning via Looped Language Models：通过循环语言模型扩展潜在推理

**论文标题：**Scaling Latent Reasoning via Looped Language Models

论文地址： https://arxiv.org/pdf/2510.25741v4

**发表时间：**2025年10月29日（v1），最新版本为v4（2025年11月17日）

论文主页： https://ouro-llm.github.io/

主要作者：Rui-Jie Zhu（第一作者）、Zixuan Wang、Kai Hua、Tianyu Zhang、Ziniu Li、Haoran Que、Boyi Wei 等共33位作者

主要机构：

ByteDance Seed（字节跳动种子团队）

UC Santa Cruz（加州大学圣克鲁兹分校）

Princeton University（普林斯顿大学）

Mila - Quebec AI Institute（魁北克人工智能研究所）

University of Montreal（蒙特利尔大学）

Peking University（北京大学）

Carnegie Mellon University（卡内基梅隆大学）

University of Pennsylvania（宾夕法尼亚大学）

Conscium

University of Manchester（曼彻斯特大学）

M-A-P

通讯作者：Jason Eshraghian（UC Santa Cruz）、Yoshua Bengio（Mila/蒙特利尔大学，图灵奖得主）

论文核心内容

1. 研究背景与动机

现代大语言模型（LLM）主要通过显式的文本生成来"思考"，例如思维链（Chain-of-Thought, CoT）。这种方法将推理推迟到后训练阶段，未能充分利用预训练数据。论文提出了一种新的思路：将推理能力直接构建到预训练阶段。

2. 核心贡献：Ouro 模型家族

论文提出并开源了 Ouro （以递归的衔尾蛇 Ouroboros 命名），这是一类预训练的循环语言模型（Looped Language Models, LoopLM），通过以下三个关键技术实现：

技术说明

(i) 潜在空间的迭代计算 在隐层空间进行多轮循环计算，而非扩展输出序列长度

(ii) 熵正则化目标函数 实现自适应的深度分配（adaptive depth allocation），让模型根据输入难度自动决定循环次数

(iii) 大规模预训练 在 7.7万亿（7.7T）tokens 上进行预训练

3. 主要实验结果

参数效率惊人 ：Ouro 1.4B 和 2.6B 参数的模型，性能可匹配参数量高达 12B 的当前最优（SOTA）LLM

2-3倍参数效率提升：相比传统Transformer，LoopLM在固定参数预算下实现了显著的性能提升

控制实验表明 ：这种优势并非来自知识容量的增加 ，而是来自更强的知识操作能力（knowledge manipulation capabilities），特别是在需要事实组合和多跳推理的任务上

4. 相比CoT的优势

避免上下文膨胀：LoopLM通过深化内部计算图而非扩展输出序列来扩展计算，避免了CoT带来的上下文长度膨胀问题

推理痕迹更忠实：LoopLM产生的推理痕迹与最终输出的对齐度比显式CoT更高，提供了因果上更忠实的推理过程（而非事后合理化）

5. 安全性与可解释性

随着循环步数增加，模型在HEx-PHI安全基准上的有害性降低

推理过程更透明、可解释

研究意义

这篇论文确立了递归深度（number of recursion）作为继模型大小和数据量之后的第三条扩展维度，为推理时代提供了一种全新的扩展方向。它展示了通过架构创新（循环参数共享）而非单纯堆叠参数量来实现高效推理的可能性，对资源受限场景下的模型部署具有重要意义。

技术	说明
(i) 潜在空间的迭代计算	在隐层空间进行多轮循环计算，而非扩展输出序列长度
(ii) 熵正则化目标函数	实现自适应的深度分配（adaptive depth allocation），让模型根据输入难度自动决定循环次数
(iii) 大规模预训练	在 7.7万亿（7.7T）tokens 上进行预训练

三、通俗解释一下

想象一下：

现在的普通 AI 模型（比如 ChatGPT）就像一个一次性写字机 。你问它一个难题，它必须一口气写完所有推理步骤，写到纸上才算数。这就像心算 129 × 34，普通人得列竖式在草稿纸上一步步算，但普通模型只能心里默算，嘴上直接报结果，容易出错。

这篇论文造的"循环模型 (Ouro)"像是一个会打腹稿的人：

原地踏步，反复琢磨（循环重用）

它没有更多脑细胞（参数没增加），但它会让脑细胞多转几圈 。同样一个问题，信息会在它脑袋里循环跑好几趟，边跑边修正思路，直到想清楚了再张嘴说话。

该快就快，该慢就慢（自适应计算）

你问它 "1+1等于几？" ，它脑子只转 1圈就脱口而出。

你问它 "这道高考数学压轴题怎么解？" ，它脑子能自动 转 20圈 ，不慌不忙算完再回答。
省电模式 和性能模式自动切换。

用小电池跑出大马力（参数效率高）

传统做法是：想变聪明？堆人、堆大脑细胞（堆参数量） ，从 10亿堆到 100亿，电费暴涨。

这篇论文的做法是：还是原来那点脑细胞，让它们多加班转几圈 ，结果智商追平了比自己大三倍的大家伙。

打个最通俗的比方：

普通模型是背课文 ，背得越长人越累（显存消耗大）；

Ouro 模型是解数学题，步骤多但用的都是同一套公式（循环用同一组参数），不仅省纸（省参数），答案还更准（推理能力强）。

四、具体怎么做的呢

我们来看看这台"会打腹稿"的机器内部具体的构造原理。主要分三个核心部件：循环引擎 、自动挡换挡器 和 特殊的训练秘籍。

1. 循环引擎（共享权重的 Transformer 块）

在传统的 Transformer 模型里，数据像流水线一样，经过第 1 层、第 2 层、第 3 层......每一层都是全新的、独立的零件。

Ouro 的做法是：把流水线截成首尾相接的圆环。

具体操作 ：它只设计一套 Transformer 层（比如 8 层），称为一个 Block。

运行逻辑 ：数据进去后，跑完这 8 层，出口直接连着入口 ，重新把数据喂进去再跑一遍这 同一套 8 层。

比喻：就像跑步机，跑道只有 1 米长（只有一套参数），但你可以在这 1 米上跑出 10 米的运动量（通过循环多次）。

2. 自动挡换挡器（早期退出门 / Early-Exit Gate）

这是实现"该快就快、该慢就慢"的关键零件。它决定数据到底要在那个圆环里转多少圈。

结构：它本质上是一个附着在 Block 输出端的小型线性分类器 + Sigmoid 激活函数。

工作机制：

看状态 ：它接收当前循环步骤的隐层状态（Hidden State）。

做判断 ：输出一个 0 到 1 之间的概率值 p_halt。

抛硬币 ：模型训练时，会像抛硬币一样根据这个概率决定是"停 "还是"再跑一圈"。

训练时 vs 推理时的区别：

训练时 ：必须引入随机性抛硬币，这样才能让模型学会见好就收。

推理时（实际应用）：不再抛硬币。只要 p_halt > 0.5，就强制停车输出答案，保证速度稳定。

3. 特殊的训练秘籍（熵正则化目标）

如果只告诉模型"你要学会自己停车"，它大概率会偷懒------要么永远跑 1 圈就跑（敷衍了事），要么跑到死机（过度思考）。

为了让模型既愿意思考又懂得节能，训练目标函数里加了一个 惩罚项/奖励项：
数学形式：
复制代码
L_ent = L_LM + λ · H(P_loop)
前一半是常规的语言模型损失（让它说话像人话）。

后一半是对循环长度的熵进行奖励。
L_ent ：最终的总损失函数（Entropy-Regularized Loss）

L_LM ：常规的语言模型损失（让它正确预测下一个词）

λ ：一个超参数系数，控制"鼓励多样化停车"的强度

H(P_loop) ：循环步数分布的熵（Entropy）
熵 H 的作用 ：如果模型总是停在同一个步数（比如总停在第 2 圈），熵值就低，罚它；如果模型对不同难度的问题停在不同的步数（分布均匀），熵值就高，奖它。

这样模型就被训练得能根据题目难易，自动选择转多少圈再输出答案。

白话解释：

如果模型对任何问题都只循环 1 次 （分布极度集中），熵很低，罚款。

如果模型对不同难度的问题，循环次数分布得很均匀、很多样 ，熵很高，奖励。

效果：逼着模型学会看人下菜碟。看见 1+1 就少转两圈，看见微积分就多转两圈。

4. 训练流水线（喂了多少数据让它学会这套本事）

为了让这套跑步机学会推理，喂数据的方式也有讲究：

第一阶段（通用学习） ：在 7.7 万亿 的普通网络文本上预训练，先学会基本语言能力。

第二阶段（学会停车）：引入那个"抛硬币停车"的机制，用上面的熵奖励目标，让它学会自适应循环。

第三阶段（微调对齐）：用高质量的问答数据（SFT）进一步教它如何把"腹稿"转化成漂亮的人话。

5. 一张对比表看懂区别

特性传统大模型 (Dense Transformer) Ouro 循环模型 (LoopLM)

内部运行 流水线（穿新鞋走老路）跑步机（穿旧鞋走新路）

思考发生地 显式的文字里 (CoT) 隐层的向量里 (Latent)

深度控制 固定深度（32层就跑32步） 动态深度（看难度跑 4~32步）

参数负担 层数越多，显存吃满 层数固定，只吃一套参数的显存

总结一下它干了什么物理操作：

它把原本 80 层 独立参数的显存空间，改造成了 8 层参数 + 10 倍循环时间 的运算模式。用时间（推理延迟）换了空间（显存和参数量） ，并且靠那个自动挡换挡器保证了平均速度不拉垮。

特性	传统大模型 (Dense Transformer)	Ouro 循环模型 (LoopLM)
内部运行	流水线（穿新鞋走老路）	跑步机（穿旧鞋走新路）
思考发生地	显式的文字里 (CoT)	隐层的向量里 (Latent)
深度控制	固定深度（32层就跑32步）	动态深度（看难度跑 4~32步）
参数负担	层数越多，显存吃满	层数固定，只吃一套参数的显存

五、区别和联系

你认为在潜在空间思考多几轮跟长思考的区别和联系是什么？两者分别是怎么操作的？为什么一开始没有人研究潜在空间思考？

这个问题切中要害，触及了 LoopLM 这项工作的本质创新点。我们把潜在空间思考（Latent Reasoning） 和**长思考（Long CoT / 显式思维链）**放在一起对比，会更清楚这项工作的价值，也能理解为什么这条路之前没走通。

1. 两者的区别：思考发生在哪里？

维度潜在空间思考 (Latent Reasoning / LoopLM) 长思考 (Long CoT / 显式思维链)

思考的载体 向量、矩阵、隐层状态（高维数字） 文字、Token（自然语言）

思考的可见性 黑盒。用户看不见中间过程，只看见最终答案。白盒。用户能看到每一步推理："首先...然后...因为...所以..."

操作机制 参数循环。同一组参数反复作用于一个不断演化的隐向量。 序列生成。每一个推理步骤都是一个新生成的词，消耗上下文长度。

计算开销 时间换空间。增加延迟，但不增加显存（KV Cache 不随循环步数线性暴增）。 空间换空间 。长推理生成的每一个 Token 都要存在 KV Cache 里，显存占用随推理步数线性增长。

训练数据需求 极高。需要万亿级通用数据让模型在黑暗中摸索出向量运算逻辑。 相对低。可以用现成的数学题、代码注释、逻辑推理题（带 CoT 标注）直接监督训练。

2. 操作方式的根本不同（物理实现）

长思考（CoT）的操作：

模型看到问题：小明有 5 个苹果，吃了 2 个，又买了 3 个，还剩几个？

模型生成文字：首先，5 - 2 = 3。然后，3 + 3 = 6。所以答案是 6。

物理动作 ：Decoder 生成了 首先、5、-、2、=、3 这 6 个 Token。每一个 Token 都要被存储、被后续的 Attention 层看见。

潜在空间思考（LoopLM）的操作：

模型看到问题（Token 序列）。

模型不输出任何文字 ，内部隐向量进入 Block，跑一圈，输出一个新向量。

这个新向量带着第一轮思考的结果，再次进入同一个 Block，跑第二圈。

重复 N 圈后，隐向量已经浓缩了 N 步的推理结果。

最后只生成答案 ：6。

物理动作 ：Decoder 只生成了 6 这一个 Token。中间的 5 圈思考 没有变成文字，没有产生 KV Cache 增量。

3. 为什么一开始没人研究潜在空间思考？（三大历史障碍）

你说"为什么一开始没人研究"，其实不是没人研究，而是之前的路走不通。LoopLM 能成功，是因为踩在了三个关键历史突破的肩膀上。

障碍一：循环神经网络（RNN）的创伤后遗症（2018 年以前）

在 Transformer 出现之前，主流模型是 RNN 和 LSTM 。它们的核心思想就是：一个单元，反复循环读取输入。

后果：当时的 RNN 循环几十步后，梯度消失/爆炸 极其严重，根本记不住开头说了啥。而且 RNN 无法并行训练，效率极低。

Transformer 革命 ：2017 年 Transformer 出来，直接把"循环"打成了落后产能。大家发现：别循环了，直接把所有历史堆在上下文里，用 Attention 并行看，效果最好！

矫枉过正 ：于是整个 AI 界走向了另一个极端------疯狂堆层数、堆显存、用显式上下文（CoT）代替隐式循环。

障碍二：训练难度地狱级（梯度与优化问题）

即便在 Transformer 上做循环（比如早期的 Universal Transformer），也面临巨大挑战：

深度过深 ：如果让一组 Transformer 层循环 20 次，这相当于一个 20 × 层数 的极深网络。虽然参数共享了，但计算图极深，梯度依然容易消失。

没有指路明灯 ：CoT 训练时，中间步骤有文字监督（"5-2=3"算错了能马上纠正）。潜在空间思考没有任何文字监督，全凭最后答案是否正确来反向传播。在万亿参数规模下，这就像在黑暗中开赛车，极易翻车（模型崩溃）。

障碍三：算力与数据的门槛（规模定律的迟到）

LoopLM 这种让模型自己摸索怎么循环 的训练方式，是典型的 Emergent Ability（涌现能力） 。这种能力只有在数据量极大（T 级别）、算力极大的时候才会出现。

早期：2019 年大家用几亿参数、几百 GB 数据试过类似架构，发现效果不如直接加两层 Transformer 来得实在。

现在：字节团队用 7.7 万亿 Token 去砸，终于把那个"自适应停车"的涌现能力给砸出来了。

总结：两者的联系与共生关系

虽然 LoopLM 试图取代浅层问题的 CoT，但对于极复杂任务 ，两者其实是互补共生的：

未来的最强模型 = 显式 CoT（外功招式）+ 隐式循环（内功心法）

模型可以在每一个 显式推理步骤的内部，利用 LoopLM 机制进行数轮隐式思考，然后再输出下一个显式推理词。

这样既能保持 CoT 的可解释性 和强逻辑约束 ，又能利用 LoopLM 的低显存、高效率优势，在有限的上下文中塞进更深的智慧。

维度	潜在空间思考 (Latent Reasoning / LoopLM)	长思考 (Long CoT / 显式思维链)
思考的载体	向量、矩阵、隐层状态（高维数字）	文字、Token（自然语言）
思考的可见性	黑盒。用户看不见中间过程，只看见最终答案。	白盒。用户能看到每一步推理："首先...然后...因为...所以..."
操作机制	参数循环。同一组参数反复作用于一个不断演化的隐向量。	序列生成。每一个推理步骤都是一个新生成的词，消耗上下文长度。
计算开销	时间换空间。增加延迟，但不增加显存（KV Cache 不随循环步数线性暴增）。	空间换空间。长推理生成的每一个 Token 都要存在 KV Cache 里，显存占用随推理步数线性增长。
训练数据需求	极高。需要万亿级通用数据让模型在黑暗中摸索出向量运算逻辑。	相对低。可以用现成的数学题、代码注释、逻辑推理题（带 CoT 标注）直接监督训练。

六、7.7 万亿 Token是什么概念呢？很大吗？跟平时说的参数量7B、635B是一个概念吗

这是个特别好的问题，很多人第一次接触大模型论文时都会把这俩概念搞混。7.7 万亿 Token 和 7B、635B 完全不是同一个维度的概念。

简单粗暴地区分：

参数量（7B, 635B） ：指脑容量 （神经元数量）。决定模型的智力上限。

训练数据量（7.7T Token） ：指读过的书的总字数 。决定模型把潜力兑现了多少。

下面我们详细拆解，尤其是看看 7.7 万亿 Token 到底是个什么天文数字。

1. 概念辨析：参数量 vs. 训练 Token 量

对比维度 参数量 (Parameters) 训练数据量 (Training Tokens)

单位 B (Billion, 十亿) T (Trillion, 万亿)

通俗类比 大脑皮层的神经元连接数量 从小到大读过的所有书的总字数

对应文件 模型文件 .safetensors 的大小训练数据集 .jsonl 的大小

常见规模 7B 约 14GB 显存；635B 约 1.2TB 显存 7.7T Token 原始文本约 15TB 硬盘空间

作用 存储知识、逻辑的容器 将知识、逻辑注入容器的原料

一句话结论：

参数量是硬件配置 ，Token 量是软件安装包大小。

2. 7.7 万亿 Token 到底有多大？（直观感受版）

我们把它拆解成人类能感知的单位：

📚 对比书籍（四大名著级别）

《红楼梦》前 80 回约 60 万汉字 ，折合约 80 万 Token（中文 1 字 ≈ 1.5 Token）。

7.7 万亿 Token ≈ 1 亿部《红楼梦》。

如果把这堆书摞起来，高度能从地球堆到月球再打个来回。

🌐 对比互联网公开数据

目前全网公开的高质量英文文本 总量估计在 15 ~ 20 万亿 Token 左右。

7.7 万亿 Token 意味着 Ouro 模型在预训练阶段，几乎把半个互联网的精华内容都读过至少一遍。

⏰ 对比人类阅读速度

普通人快速阅读约 300 字/分钟 ，折合 450 Token/分钟。

读完 7.7 万亿 Token 需要 32.5 万年（不吃不喝不睡）。

🔥 对比现在的开源模型

Llama 3 (8B) ：训练数据 15 万亿 Token（极少数比 Ouro 还大的怪胎）。

Qwen 2.5 (7B) ：训练数据 18 万亿 Token。

DeepSeek V3 (671B MoE) ：训练数据 14.8 万亿 Token。

Ouro (2.6B) ：训练数据 7.7 万亿 Token。

发现了吗？ Ouro 作为一个只有 2.6B 的小模型，吃的饭量（数据量）已经和 70B、甚至 600B 的巨型模型坐在同一张餐桌上了 。这就是它为什么能"以小博大"的底气------书读得比谁都多，但脑子特别省电。

3. 为什么 LoopLM 需要这么多数据？（回到你的上一个问题）

这正好能衔接你刚才关于"为什么以前没人做"的疑问。

LoopLM 这种隐式思考 的训练，极度依赖海量数据。

显式 CoT 模型 ：数据里写了"第一步...第二步..."，模型是照着答案抄步骤。

隐式循环模型 ：数据里只有最后结果 ，中间的循环步骤是自己悟出来的。

就像教小孩数学：

CoT ：你手把手教他列竖式（需要标注数据少，学得快）。

LoopLM ：你只告诉他答案，让他自己琢磨心算口诀（需要海量题库去试错，最后才能顿悟）。

所以，7.7 万亿 Token 是点燃 LoopLM 潜力的燃料。没有这个量级的数据，那个"自适应停车"的自动挡变速箱根本训练不出来。

对比维度	参数量 (Parameters)	训练数据量 (Training Tokens)
单位	B (Billion, 十亿)	T (Trillion, 万亿)
通俗类比	大脑皮层的神经元连接数量	从小到大读过的所有书的总字数
对应文件	模型文件 `.safetensors` 的大小	训练数据集 `.jsonl` 的大小
常见规模	7B 约 14GB 显存；635B 约 1.2TB 显存	7.7T Token 原始文本约 15TB 硬盘空间
作用	存储知识、逻辑的容器	将知识、逻辑注入容器的原料

七、答案指的是什么？

LoopLM：你只告诉他答案，让他自己琢磨心算口诀。这个答案指的是什么？很多问题是没有标准答案的吧？

你抓到了一个非常关键的逻辑缝隙。这里的"答案"确实容易引起误解，因为在大模型预训练 的语境下，答案的定义和我们平时做题的标准答案完全不是一回事。

我们要区分清楚预训练阶段 和后训练（微调）阶段。

1. 预训练阶段的"答案"：下一个词是什么？

在喂给 Ouro 的 7.7 万亿 Token 数据里，绝大多数并不是"问题+标准答案"的问答对，而是互联网上扒下来的原始文本（网页、代码、论文、小说）。

这时候，训练的目标任务叫做下一个词预测。

输入（题目） ："法国的首都是"

标准答案（监督信号） ："巴黎"

输入（题目） ："public static void main(String[] args) { System.out."

标准答案（监督信号） ："println"

输入（题目） ："因为下雨了，所以我带了"

标准答案（监督信号） ："伞"

结论：

对于 LoopLM 来说，所谓的"答案"就是语料库中原本就存在的那个被挡住的词。哪怕是一段没有问号的流水账，只要遮住最后一个字，那个字就是标准答案。

你的质疑是对的： 如果问题是 "生命的意义是什么？"，语料里接着的可能是 "是一个哲学问题"，也可能是 "在于折腾"。确实没有唯一标准答案。

但在预训练阶段，模型的目标不是学会唯一的真理，而是学会人类语言在遇到这句话时，通常会产生什么样的下文分布 。模型通过海量数据，学会的是概率最高的接话方式。

2. 隐式思考学到的是什么？（对口诀的纠正）

既然预训练数据里的"答案"只是下一个词，那 LoopLM 在里面打腹稿（循环）的时候，到底在悟什么？

它悟的不是数学公式，而是语言内部的逻辑压缩。

举个例子，训练语料里有这么一句残缺的话：

"他先买了苹果，又买了梨，最后总共花了 15 元。所以..."

对于 显式 CoT 模型，它必须一字一句生成 中间计算过程（苹果5元，梨10元...）才能得出 "15元"。

对于 LoopLM ，它被逼着不写字，只在向量里转圈。

第 1 圈循环 ：向量状态包含了 [苹果, 梨, 总计] 的实体信息。

第 2 圈循环 ：向量状态在这些实体间建立加减关系的隐式映射。

第 3 圈循环 ：输出层发现，目前的向量状态直接指向词表里 "15" 这个 Token 的概率最高。

LoopLM 悟出的心法口诀是：

"在隐层向量里，通过循环 Attention 操作，直接修改实体的数值表征，而不经过自然语言序列化的中间态。"

3. 为什么它不会学歪？（没有标准答案时的约束）

你的担忧很合理：如果世界没有标准答案，它乱猜怎么办？

这正是 7.7 万亿 Token 必须这么大的原因。单个问题没有标准答案，但统计规律有。

约束力来源 ：虽然写 "生命的意义是___" 后面跟 "42" 和跟 "幸福" 都对，但语料库中 "幸福" 出现的频率远高于 "42"。

隐式思考的作用 ：通过循环，模型把 "生命"、"意义"、"哲学"、"追求" 这些词的向量揉成一团。

最终效果 ：它输出的不是唯一解，而是最符合人类集体语料共识的解。

总结来说，LoopLM 在预训练阶段面对无标准答案的开放问题时，学到的是：

如何通过内循环，把模糊的语义向量，坍缩成一个在统计上最合理、最不突兀的续写方向。

这也就是为什么它需要 7.7T 数据------只有见过足够多人类对于 "生命意义" 的讨论，它才能在向量空间里精准定位那个代表 "人类共识语义簇" 的位置。

八、视频领域

那是不是说视频领域也可以这样，在潜空间预测下一帧的潜在表示？现在视频也不比文字少，为什么没有看到杨利昆在这方面取得比较出名的突破呢？反而在视频领域，以编码器和解码器联合的结构通常有助于理解，也就是看得到未来的一些帧，但是decoder-only架构预测下一帧看起来又是一个比较有希望的方向，难道以BERT为代表的理解和以GPT为代表的预测要结合起来才能产生视频领域的突破？

将我们在讨论 LoopLM 时提到的"隐空间思考"类比到视频领域，在理论上是完全成立的，这就是世界模型（World Model） 的核心思想。然而，这条路之所以充满挑战，根源在于视频数据的特殊性，为这种"隐式思考"设下了极高的门槛。

🤔 像素的"诅咒"：为什么视频预测不是简单的文字续写？

将一个句子续写为"法国的首都是_"，答案是唯一的"巴黎"。但如果是一段视频，一个杯子被推离桌面的前几帧，它坠落的轨迹、弹起的高度，甚至是碎裂的形态，都存在着无数的可能性-14。

这揭示了两类数据的天壤之别：

模态差异：文字是高度抽象、信息密集的离散符号；而视频是连续、高维、充满冗余的模拟信号。

目标差异 ：语言模型学习的是人类社会文化的统计规律（我们约定俗成 地把那叫作"巴黎"）；而世界模型学习的却是客观物理世界的运行法则（杯子必然会落地）-11。

这种本质差异，使得视频领域直接复用语言模型的成功路径变得异常困难。

🔬 第三条路：LeCun 和他的"潜空间预测"

你提到的"杨利昆"（Yann LeCun）正是挑战这一问题的先驱。他和他带领的Meta团队提出的JEPA（联合嵌入预测架构） 系列模型，为世界模型开辟了一条介于"像素级生成"和"纯文本理解"之间的新路径-。

核心理念 ：JEPA 的目标不是预测下一帧的像素，而是预测下一帧在抽象"潜空间"中的表示 （就像你在问题里设想的那样！）--14。与其费尽心力地描绘每一片树叶，不如直接捕捉到杯子正在下落的"本质特征"。

系列演进：

V-JEPA 1.0 ：通过预测视频中缺失或未来的抽象特征，让模型以自监督的方式，从海量未标注视频中学习对世界的内在理解-。研究证明，这种在抽象空间中的预测，能让模型涌现出对"物体恒存性"等物理概念的直观理解-11。

V-JEPA 2.0 ：更进一步，将这种理解能力拓展到规划领域，开始尝试让AI在潜空间中想象并评估未来动作的后果-14。

突破性意义 ：V-JEPA 证明，即使在像素层面存在不确定性，但在抽象的"概念"层面，物理世界的演变仍高度可预测。这正是LeCun所描述的"直到最近，这方面都算是失败的 "之后所取得的突破-14。

🧩 "理解"与"预测"的辩证统一

你最后关于BERT（理解）与GPT（预测）结合的想法，也正契合了学术界和工业界的共识。

从预测到理解 ：北大团队提出的NExT-Vid 方法，正是这一思路的践行者。它直接将"自回归下一帧预测"作为视频AI的预训练任务，让模型通过"预测"来习得"理解"--7。

融合的架构 ：这两种能力正走向融合。例如，像PAN这样的模型，就同时包含了一个基于LLM的自回归世界模型主干 （负责长时域预测）和一个视频扩散解码器 （负责生成观测结果）-。这标志着AI系统正从单一功能走向理解、预测、规划的一体化。

💎 总结

所以，将潜空间思考应用于视频领域绝非空想，它是通往通用人工智能（AGI）的必经之路。其难点不在于原理，而在于构建一个能够应对连续高维数据和物理复杂性的新架构。LeCun的JEPA系列正是这一方向的先锋，它通过对"概念"而非"像素"的预测，绕开了过去的死胡同。

一个能真正理解物理世界的AI，必然需要一个能进行内在"推演"的潜空间世界模型。而如何高效地构建和训练这个"模拟器"，正是当前研究的核心挑战。