【论文阅读】Genie: Generative Interactive Environments

Genie: Generative Interactive Environments

  • 摘要

    • 核心创新:首个无监督生成的交互环境

      • Genie定义: 它是第一个"生成式交互环境"。

      • 训练方式: 无监督------使用未标注的互联网视频。

      • 优势:

        • 传统的游戏环境或模拟器通常需要代码编写,或者在训练AI时需要视频对应的动作标签(比如这一秒按了'跳跃'键)
        • Genie不需要这些,它仅仅通过看海量的视频,就学会了世界是如何运作的。
    • 功能:多类型输入均可变为虚拟世界

      • 输入多样性: 输入可以为文字/合成图/真实照片/手绘草图。

      • 输出结果: 这些静态输入会转化为一个动作可控的虚拟世界

      • 举例: 一个超级马里奥的草图,Genie可以把它变成一个可以实际操作并游玩的动态关卡。

    • 定位:基础世界模型------Foundation World Model

      • 定位: 11B 参数的基础世界模型。
        • 就像GPT是文本领域的基础模型一样,Genie旨在成为构建虚拟世界和交互环境的通用底座。
    • 技术架构

      1. Spatiotemporal Video Tokenizer------时空视频分词器
        • 把视频在空间(画面)和时间(帧序列)上进行压缩和编码,转化成Token。
      2. Autoregressive Dynamics Model------自回归动力学模型
        • 预测下一帧会发生什么,类似于NTP,决定了世界的物理规则和动态变化。
        • 没有采用Diffusion的生成方式
      3. Latent Action Model------潜在动作模型
        • 最关键的创新。因为没有真实的按键记录,模型必须自己推断出视频帧之间发生了什么潜在动作,从而把这种推断转化为用户的控制器。
    • 突破点:无标签也能控制

      • 实现: 用户可以逐帧控制环境。

      • 难点: 它是在没有任何真实动作标签的情况下做到的。

      • 对比: 以前的世界模型通常需要知道每一步对应什么动作(如Robot动作日志或游戏按键日志),且往往受限于特定领域。Genie打破了这些限制,具有极强的通用性。

    • 研究展望:通往AGI

      • Genie学到的潜在动作空间非常有价值。

      • 应用: 可以用这个环境来训练其他的AI Agent。让Agent去模仿那些它没见过的视频中的行为。

      • 目标: 为训练未来的通用智能体开辟了道路。

        • 因为有了Genie,我们就有了一个无限的、通用的训练场,而不需要为每个任务专门写模拟器。

1. Introduction

  • 研究背景与痛点:从"生成"到"交互"的跨越

    • 现状: 生成式 AI的爆发式增长。

      • 文本: Transformer 的出现让 GPT 等模型能写出连贯的对话。
      • 图像: 扩散模型能通过文字生成精美的图片。
      • 视频: 视频生成是下一个前沿,虽然已有进展,但目前的视频模型主要是看的,缺乏像 ChatGPT 那样的交互性,更没有沉浸式体验。
    • 提出的问题: "如果我们不仅仅生成视频,而是能生成完整的交互体验,会怎样?"

  • 核心概念:Genie------Generative Interactive Environments

    • 作者提出了一个新的范式------生成式交互环境

      • 定义: 这是一个通过单一的文本或图像提示,就能生成出来的、可交互的虚拟环境。
    • 数据来源: 训练数据来自互联网上超过 200,000 小时 的公开游戏视频。

    • 关键突破------Unsupervised: 这一点至关重要。通常训练游戏 AI 需要知道"这一帧按了什么键",但互联网视频只有画面,没有按键记录。

      • Genie 在没有动作标签、没有文本标注 的情况下,学会了逐帧控制画面。
    • 能力: 作为一个 11B参数的基础模型,它可以接受一张它从未见过的图片,然后生成一个完全想象出来的、可玩的虚拟世界。

  • 技术架构:三大核心组件

    • 基础架构: 所有的组件都基于 Spatiotemporal (ST) Transformers

    • 流程:

      1. Video Tokenizer------视频分词器: 负责把视频压缩成Tokens。
      2. Causal Action Model------因果动作模型: 负责从视频中提取 Latent Actions
        • 举例:虽然视频没告诉模型玩家按了跳跃,但模型通过观察画面变化,推断出了一个代表跳跃的latent。
      3. Dynamics Model------动力学模型: 这是一个预测模型--使用 MaskGIT 技术。
        • 它接收当前的画面 Token 和推断出的动作,然后预测下一帧画面。
  • 实验验证:Scaling Laws(缩放定律)

    • 规模分析: 作者做了一系列从 40M 到 2.7B 再到最终 11B 参数的模型。

    • 结论: 结果证明架构符合缩放定律------计算资源越多、模型越大,效果就越好。

    • 具体训练集: 最终的 Genie 模型是在筛选后的 30,000 小时 的 2D 平台游戏视频上训练的。

  • 泛化能力

    • 为了证明这套方法不是只能玩游戏,作者还做了两个重要的扩展实验:

      1. 机器人领域:他们在 RT1 数据集(机器人操作视频)上训练了一个模型。

        • 同样是没有动作标签,模型依然学会了生成连贯的机器人操作环境。
      2. 强化学习的未来:Genie 学到的潜在动作可以用来推断策略。

        • 意义: 这意味着以后要训练机器人或 AI Agent,可能不再需要昂贵的模拟器或者人工采集数据,直接让 AI 看海量的视频,就能通过 Genie 这样的模型学会如何操作。

2. Methodology

  • 任务定义

    • 基础: Genie 的架构基于 Vision Transformer,这是目前图像处理的主流架构。

    • 痛点: 标准 Transformer 的内存消耗是**二次方级(O(N2)O(N^2)O(N2))**的。

    • 举例: 在处理文本时,Token 数量通常几百上千;但处理视频时,Token 数量会轻松达到上万级别。如果用标准 Transformer,每一个 Token 都要和所有其他 Token 算注意力,计算量就是 10000×1000010000 \times 1000010000×10000,内存会直接爆炸。

  • **解决方案:**ST-transformer 架构

    • 对策: 采用了时空 Transformer(ST-transformer)

    • 应用范围: Genie 的所有组件(分词器、动作模型、预测模型)都用了这个架构。

  • **架构细节:**把空间和时间分开算

    • 传统 vs. 新架构:

      • 传统: 所有 Token(不管是在哪一帧、哪一个位置)混在一起算注意力。
      • ST-transformer:
        • 采用了 LLL 个层块,里面交替放置了空间注意力层和时间注意力层。
        • 最后接一个前馈神经网络。
    • 核心思想: 不再一次性算所有东西,而是先算画面内的关系,再算时间上的关系。

    • 具体计算方式:

      • 空间层: 锁定时间。在每一帧 内部,计算 H×WH \times WH×W 这些 Token 之间的关系。

      • 时间层 :锁定空间位置。在同一个token 上,跨越 TTT 个时间步,计算这 TTT 个 Token 的关系。

    • 关键特性:

      • 因果掩码: 在时间层中,必须加上因果限制。

      • 含义: 第 ttt 帧只能看到 ttt 之前的帧,不能看未来

    • 计算效率

      • 传统 ViT: 复杂度随帧数 TTT 是二次方增长 (T2T^2T2)。
      • ST-transformer: 计算量最大的部分是空间层,而空间层是每一帧单独算的。所以,当你增加帧数 TTT 时,计算量只是线性增长
    • 结果: 这让 Genie 能够生成长视频,并保持长时间的动态一致性,而不会因为视频变长导致计算量指数级爆炸。

  • **架构特点:**减少 FFW 层

    • 标准做法: 通常的设计是 [空间层 -> FFW -> 时间层 -> FFW]。

    • Genie 的改进: [空间层 -> 时间层 -> 一个 FFW]。他们砍掉了空间层后面的那个 FFW。

    • 原因:

      • 省下来的参数和计算量,让他们可以把模型的其他部分做得更大。
      • 作者观察到,这种牺牲一个 FFW 换取更大模型规模的策略,实际上显著提高了最终效果

2.1 Model Components

  • 三大核心组件

    • Latent Action Mode

      • 任务: 观察两帧画面,推断出它们之间发生了什么潜在动作 (Latent Action, aaa)
    • Video Tokenizer

      • 任务: 把庞大的原始视频画面压缩并转化为机器好处理的离散 Token (zzz)
    • Dynamics Mode

      • 任务: 接收过去的 Token 和推理出的动作,预测下一帧视频会是什么样------自回归的视频生成。
  • 两阶段训练流程

    • 第一阶段:先练分词器

      • 操作: 单独训练 Video Tokenizer
        • 第二阶段冻结
    • 第二阶段:联合训练

      • 操作: 同时训练 Latent Action ModelDynamics Model
      • 关键差异:
        • LAM 使用的是原始像素 (Pixels)------为了捕捉细微动作细节。
        • Dynamics Model 使用的是视频 Token------为了高效学习宏观物理规律。
2.1.1 Latent Action Model
  • 核心任务:无监督的动作提取

    • 目标: 模型通过观察画面变化,定义什么是"动作"。

    • 方法: 利用过去未来之间的差异来反推。

  • 训练流程:Encoder-Decoder 架构

    1. 编码器

      • 输入: 之前的帧序列 x1:t\mathbf{x}{1:t}x1:t 加上 下一帧 xt+1\mathbf{x}{t+1}xt+1。

      • 逻辑: 编码器同时看到了现在和未来。

        • 比如,现在马里奥在地上,未来马里奥在空中。
        • 编码器就分析:"为了从状态 A 变到状态 B,中间一定发生了某种变化。"
      • 输出: 一个连续的潜在动作向量序列 a~1:t\tilde{\mathbf{a}}_{1:t}a~1:t。

      • 作用: 它的任务就是把前后两帧的差异提取出来,称之为"动作"。

    2. 量化瓶颈 ------ 强制归类(LAM 最关键的一步)

      • 编码器输出的是连续向量,包含的信息太多太杂。

      • 作者使用了 VQ-VAE 的技术,强制把这个连续向量映射到一个极小的离散码本中。

        • 只有 8 个动作 (∣A∣=8|A|=8∣A∣=8)。
          • 如果允许 1000 种动作,模型可能会把背景的风吹草动都当成动作。但如果只允许 8 种,模型就被迫只学习最重要、最显著的变化(比如:跳跃、左移、右移、开火等)。
          • 为了 Human Playability。如果生成了过多按键,人类根本没法玩;8 个按键较为合适。
    3. 解码器

      • 输入: 之前的帧 x1:t\mathbf{x}{1:t}x1:t 和 **提取出的动作序列 a~1:t\tilde{a}{1:t}a~1:t**。

        • 注意: 解码器看不见 下一帧 xt+1\mathbf{x}_{t+1}xt+1。
      • 任务: 预测下一帧 x^t+1\hat{x}_{t+1}x^t+1。

      • 逻辑: 如果解码器能根据"历史"和"动作"完美画出"未来",那就证明这个"动作"提取对了。

        • 这个过程迫使 a~\tilde{a}a~ 必须包含从过去通向未来的关键信息。
  • 技术细节:ST-Transformer

    • LAM 同样使用了时空 Transformer。

    • Causal Mask :即使它可以一次性处理整个视频序列 x1:T\mathbf{x}_{1:T}x1:T,但在时间层上使用了因果掩码,确保它在提取第 ttt 步动作时,利用的是上下文的一致性,但逻辑上依然是基于帧间差异的。

  • 训练与推理的区别

    • 训练时:

      • 我们要训练 LAM 识别动作。
      • 我们要训练 Dynamics Model 理解这些动作。
    • 推理时:

      • LAM 被扔掉了:Encoder和Decoder全部舍弃。
      • 保留VQ Codebook------动作词表
      • 推理时的动作 :人类用户提供。
        • 按下"键 1",模型就去 Codebook 里查"动作 1"对应的向量,然后喂给 Dynamics Model。
  • 总结

    • 训练目标: 把视频帧之间的像素差异 ,压缩成 8个离散的代号
    • 手段: 用 Encoder 看未来帧,提取差异;用 Decoder 验证差异是否准确。
    • 结果: 得到了一本动作字典(Codebook)。
    • 最终应用: 玩游戏时,人类按键 →\to→ 查字典 →\to→ 输入给Dynamics Model生成画面。
2.1.2 Video Tokenizer
  • 基础任务:压缩与离散化

    • 手段: 使用 VQ-VAE

    • 过程:

      1. 输入: 原始视频帧 x1:Tx_{1:T}x1:T(比如 RGB 像素矩阵)。

      2. 处理: 通过编码器压缩。

      3. 量化: 这是关键。它不是压缩成连续的小数,而是压缩成离散的整数索引 z1:T∈IT×Dz_{1:T}\in \mathbb{I}^{T \times D}z1:T∈IT×D。

        • DDD 表示每一帧被切成了 DDD 个token,存储时,存的是token在Code book中的索引。
    • 结果: 每一帧画面不再是几百万个像素,而是变成了几百个来自代码本的数字编号。这大大降低了维度,让生成高质量视频成为可能。

  • 核心创新:时空感知

    • 旧方法------Spatial-only:

      • 以前的方法通常是把视频切成一张张图,单独压缩
      • 缺点: 每一帧的 Token 只知道这一帧长什么样,不知道上一帧发生了什么。这就导致压缩后的代码丢失了"动作"和"连贯性"的信息,画面容易闪烁。
    • Genie 的方法------ST-Transformer:

      • 它在 Encoder 和 Decoder 里都用了 ST-Transformer
      • 意义: 在生成第 ttt 帧的 Token ztz_tzt 时,模型不仅看了第 ttt 帧的画面,还回顾了之前的所有帧 x1:tx_{1:t}x1:t。
      • 因果性: 这意味着,ztz_tzt 这个代码,实际上是一个**"包含了历史记忆的浓缩包"**。它不仅仅代表"这一刻的画面",还隐含了"这一刻是如何从过去演变而来的"动态信息。
  • 效率突破:线性复杂度

    • 竞争对手 (Phenaki / C-ViViT):

      • 虽然也用了时间感知的分词器,但计算复杂度是 二次方级 (O(T2)O(T^2)O(T2))
      • 如果你把视频长度加倍,计算时间会变成 4 倍。这导致它很难处理长视频。
    • Genie (ST-ViViT):

      • 得益于 ST-Transformer 的设计(空间和时间分开算),它的计算复杂度是 线性级 (O(T)O(T)O(T))
      • 如果你把视频长度加倍,计算时间也只加倍。
      • 结论: 这使得 Genie 能够处理更长的视频序列,且训练效率更高。
2.1.3 Dynamics Model
  • 核心架构:Decoder-only MaskGIT Transformer

    • Decoder-only: 像 GPT 一样,这是一个单向生成的模型。

    • MaskGIT (Masked Generative Image Transformer):

      • 传统 GPT: 是从左到右,自回归生成。这在生成图片/视频时非常慢。
      • MaskGIT: 是一种并行生成策略。它允许模型一次性预测这一帧里多个被遮挡的 Token。
      • 结合 ST-Transformer: 使用时空 Transformer,利用其因果掩码来处理时间维度,确保预测未来时不会看到未来。
  • 输入与输出流

    • 输入:

      1. 过去的视频 Token (z\mathbf{z}z): 来自Video Tokenizer。
      2. 过去的潜在动作 (a~\tilde{\mathbf{a}}a~): 来自LAM。
    • 关键细节 ------ Stopgrad (停止梯度):

      • 含义: 在训练 Dynamics Model 时,误差反向传播不会**传导回 Latent Action Model (LAM)。
      • 原因: 断开连接是为了防止动力学模型作弊或干扰 LAM 的学习。
        • LAM 必须专心学动作,Dynamics 必须专心学预测,两者虽然一起训,但在梯度流上是解耦的。
    • 输出: 下一帧的 Token z^t\hat{z}_tz^t。

  • 训练策略:伯努利掩码

    • Masking Rate (0.5 ~ 1.0): 在训练时,模型看到的下一帧并不是完整的

      • 可能完全被遮住(Rate = 1),或者是被遮住了一大半(Rate = 0.5)。
    • 目的: 强迫模型具备极强的上下文补全能力。如果模型能在遮住了 80% 的情况下依然猜出画面大概是什么样,那在推理时生成画面就会非常稳健。

    • 损失函数: 标准的 Cross-Entropy Loss

      • 即:预测出来的 Token ID 和真实的 Token ID 是否一致。
  • 核心创新:Latent Action注入方式

    • 常见做法------Concatenate:

      • 以前的模型通常是把动作向量和图像 Token 向量拼起来
        • 拼接在尾部或作为一个额外的 Token。
      • 举例:把向右走这个标签贴在"马里奥"这个词后面。
    • Genie 的做法------采用加性嵌入

      • 公式:Embeddingfinal=Embeddingimage+EmbeddingactionEmbedding_{final} = Embedding_{image} + Embedding_{action}Embeddingfinal=Embeddingimage+Embeddingaction
      • 举例:把"向右走"这个信息,直接 到"马里奥"的数值里去。
        • 这有点像 Positional Embedding的处理方式。
    • 效果: 作者发现,这种直接融合的方式,比简单的拼接更能提高可控性

      • 这意味着模型会更听指挥,按下跳跃键,角色跳起来的概率更大。

2.2 Inference

  • 推理步骤

    • Step 1. 启动

      • 输入: 多种类型的prompt均可

      • **过程:**通过 Video Tokenizer Encoder ,压缩成第一组 Token (z1z_1z1)。此时,世界初始状态加载完毕。

    • Step 2. 交互

      • 方式 :用户按下一个键,这对应着范围 [0,∣A∣)[0, |A|)[0,∣A∣) 内的一个整数ID
    • Step 3. 查表

      • 查表: 通过ID,去 LAM 训练的VQ Codebook 里查找对应的潜在动作向量

      • 注入: 这个向量通过加性嵌入 方式,加到当前的视频 Token z1z_1z1 里。

    • Step 4. 预测

      • 计算: Dynamics Model 接收当前画面 z1z_1z1 + 动作 a~1\tilde{a}_1a~1。

      • 生成: 它运用学到的物理规律,预测出下一帧的 Token 代码 z^2\hat{z}_2z^2。

    • Step 5. 循环与显像

      1. 内部循环: 刚刚生成的 z2z_2z2 变成了新的过去,你再输入下一个动作 a2a_2a2,模型生成 z3z_3z3......如此往复,生成整个序列。

      2. 显像: 每一个生成的 Token 序列 (z^\hat{z}z^),都会实时被送进 Video Tokenizer Decoder ,翻译回人类能看的 RGB 像素画面 (x^\hat{x}x^)。

  • 核心亮点

    1. **复现:**如果喂给它一段视频的第一帧,并且严格按照原视频的动作序列按键,它会重现原视频。

    2. 创造: 如果在某一步按下了和原视频不一样 的键,视频的时间线就会分叉。会创造出一个从未存在过的、全新的游戏进程。

3. Experimental Results

  • 数据集

    • 核心数据集:Platformers (2D 平台游戏)

      • 来源

        • 全部来自公开的互联网视频
        • 通过搜索与 "2D Platformer" 相关的关键词来收集。
      • 筛选与清洗过程

        • 海选: 最初通过关键词搜索,抓取了 55M 个视频片段。
        • 精选: 经过过滤,最终留下 6.8M 个片段------大约 30,000 小时
          • 附录B中有具体细节
      • 视频格式

        • 时长: 每个片段切成 16秒
        • 帧率: 10 FPS
        • 分辨率: 160x90
    • 通用性的验证数据集:Robotics (机器人操作)

      • 来源

        • 主要基于 RT-1 项目(Google 的一个机器人模型)的数据。
          • 包含 ~13万 条 RT-1 的演示视频。
        • 额外加上了 20.9万 条来自早期研究(Kalashnikov et al., 2018)的真实机器人操作视频。
        • 还混合了一些模拟器生成的数据。
      • **数据处理:**剔除动作标签

  • 衡量标准

    • 视频保真度

      • **指标名称:**FVD (Unterthiner et al. (2019) )

      • 计算方式:生成的视频分布和真实视频分布之间的距离。

      • **理解:**数值越低,说明生成的视频越像真实的互联网视频,画面越自然、流畅。

    • 可控性

      • 指标名称: ΔtPSNR\Delta_t \text{PSNR}ΔtPSNR (Delta-t Peak Signal-to-Noise Ratio)

        • 分数越高,代表画面越相似
      • 评价逻辑: 比较做模型做的动作和随机采样的动作对画面的影响差异。
        ΔtPSNR=PSNR(xt,x^t)−PSNR(xt,x^t′) \Delta_t \text{PSNR} = \text{PSNR}(x_t, \hat{x}t) - \text{PSNR}(x_t, \hat{x}{t'}) ΔtPSNR=PSNR(xt,x^t)−PSNR(xt,x^t′)

        • xtx_txt: 原始视频在第 ttt 帧的真实画面。

        • x^t\hat{x}_tx^t 模型使用从真值推断出的正确动作 (a~1:t\tilde{a}_{1:t}a~1:t) 生成的画面。

        • x^t′\hat{x}_{t'}x^t′ 模型使用了随机采样的动作 生成的画面。

  • 训练细节

    • Video Tokenizer 的配置

      • 参数量:200M

      • Patch Size:4

        • 这意味着它把画面切得非常细。
        • 图像分辨率是 160×90160 \times 90160×90,除以 4,得到 40×2240 \times 2240×22 的 Token 网格。
      • Codebook:1024 codes,32维

    • Latent Action Model 配置

      • 参数量:300M

      • Patch Size:16

        • 注意,这里切得很粗(是 Tokenizer 的 4 倍)。
        • 动作通常是宏观的。模型不需要关注像素级的细节,切得粗一点反而更容易捕捉整体的物体移动趋势。
      • Codebook:8 codes,32维

    • 通用设置 :模型一次只看和生成 16 帧,帧率为10FPS

    • 训练稳定性设置

      • 数据格式:bfloat16

      • 使用QK Norm:

        • 背景: 在训练超大模型(如 11B 参数)时,Transformer 里的 Attention 分数容易变得极大,导致梯度爆炸,模型训练直接崩盘。
        • 作用: 在计算 Attention 之前,先对 Query 和 Key 向量做归一化。这就像给模型加了"稳压器",让大规模训练不仅可行,而且收敛更快。
    • 推理时的采样策略

      • 25 MaskGIT steps:迭代步数

        • MaskGIT是迭代式 生成的:第一次可能只生成最有把握的 4% 的像素,然后把剩下的遮住;第二次再填补一部分......总共分 25 步 把一张图填满。
      • Temperature = 2

        • 通常温度设为 1.0。这里设为 2.0 是非常高的。
        • **含义:**高温度会增加随机性,让生成的画面更多样化,不那么死板。
      • Random Sampling:不使用 Beam Search 或 Top-k 截断,而是直接根据概率随机抽样。这配合高温度,进一步保证了生成内容的丰富性。

3.1 Scaling Results

3.1.1 Scaling Model Size
  • 控制变量: 保持Video Tokenizer和 LAM 不变。
  • 自变量: 只改变 Dynamics Model 的大小。
  • 范围: 尝试了从 40M (4000万)2.7B (27亿) 参数的一系列模型。
  • 结论 :Scales gracefully。
    • 意思是:模型参数每增加一点,训练损失就稳定地下降一点。没有出现瓶颈,也没有出现收益递减。
    • 意义: 这给了团队信心,说明只要把模型做得超级大,效果一定会更好。这也为最终的 11B 模型奠定了理论基础。
3.1.2 Scaling Batch Size
  • 控制变量: 固定使用一个 2.3B 的模型。
  • 自变量: 改变 Batch Size
    • 测试了 128, 256, 448 三种大小。
    • 换算成 Token 数量分别是 1.9M, 3.8M, 6.6M。
  • 结论: 增大 Batch Size 同样带来了明显的性能提升。
    • Batch Size 越大,意味着模型在每一次参数更新时看到的样本更多,梯度的方向更准确,训练收敛得更好。
3.1.3 Genie Model
  • 核心配置:
    • Dynamics Model: 10.1B 参数。
    • Batch Size: 512
  • 总参数量:10.7B
    • 10.1B (Dynamics Model) + 0.2B (分词器) + 0.3B (动作模型) ≈ 10.7B
  • 训练消耗:
    • 数据量: 训练过程中一共看过了 942B 个 Token。
    • 硬件: 使用了 256个 TPUv5p 芯片。
    • 步数: 训练了 125k 步。

3.2 Qualitative Results

3.2.1 Platformers-trained Model
  • 测试Genie 对 OOD数据 的处理能力。

    • **输入:**AI 生成的图、手绘草图、真实照片

    • 结果: Genie 能看懂这些图片,并立刻把它们变成"可操作的游戏"。

    • 结论: 这证明了 Genie 真的学会了通用的物理规则和交互逻辑

  • 涌现能力:理解3D 视差

    • 什么是视差 :当你在现实中移动时,近处的物体移动得快,远处的背景移动得慢

    • Genie 的表现:

      • Genie 训练的是 2D 游戏视频,并没有人教它 3D 几何学。
      • 但在生成的视频中,当角色移动时,Genie 自动让前景层移动得比背景层快。
    • 意义:这说明模型涌现出了深度感知能力。它理解画面不是一张平纸,而是有前后空间关系的。

3.2.2 Robotics-trained Model

论文展示了 2.5B 参数的机器人模型。

  • 模型学习到的能力
    1. 控制: 它学会了机械臂怎么移动、抓取。
    2. 物理交互: 这是重点。它不仅知道机械臂怎么动,还知道**"物体被抓捏时会变形"**。
  • 研究展望: 这意味着以后我们要训练机器人,不需要在实验室里采集带传感器的数据,直接把互联网上成千上万的机器人视频喂给 Genie,它就能构建出一个通用的机器人世界模拟器

3.3 Training Agents

作者不再满足于让 Genie 能够被人玩,而是探讨 能否用 Genie 来训练 AI,让 AI 学会玩游戏

这验证了 Genie 是否具备成为 通用智能体训练场 的潜力。

  • 方法论:用潜在动作教 AI

    • 作者设计了一个精巧的实验,测试 Genie 学到的 Latent Actions 是否具有通用的语义价值。

    • 挑战:

      • Genie 训练时学出了一套自己的动作语言(比如动作 ID 3 代表跳跃)。
      • 但新的游戏环境(比如 CoinRun)有它自己的"真实按键"(比如按键 'Space' 代表跳跃)。
      • 这两者语言不通。
    • 解决方案

      1. 冻结 LAM:拿一个在互联网视频上训练好的 LAM,直接拿来用,参数不许变。
      2. 打标签 :找一段高手玩 CoinRun的视频。
        • 让 LAM 看着视频,把每一帧的动作"翻译"成 Genie 的潜在动作 ID。
      3. 训练策略 :训练一个新的小 AI,让它学习:"看到这种画面,就应该输出动作 3"
      4. 极简映射 :最后,我们需要一个翻译字典,把 Genie 的"动作 3"对应到游戏机的"Space 键"。
        • 关键点: 作者发现,只需要极少量的真实数据(200个样本),就能学会这个映射。
  • 实验结果

    • **Random Agent **:随机采样的AI

    • Oracle BC :全知行为克隆。这个 AI 在训练时直接使用了真实的按键记录。理论上它是最强的。

    • LAM-based Policy: 使用 Genie 猜出来的潜在动作训练的 AI。

3.4 Ablation Studies

3.4.1 Design choices for latent action model
  • 核心问题: 训练 LAM 提取动作时,输入应该是原始像素 (xxx) 还是压缩后的 Token (zzz)

    • 方案一:Token-input Model

      • 思路: 既然 Video Tokenizer 已经把画面压缩得很好了,直接用 zzz 作为 LAM 的输入,计算量会小很多,网络也能做得很轻量。
    • 方案二:Pixel-input Model

      • 思路: 直接把原始视频画面 xxx 喂给 LAM,虽然计算量大,但保留了所有细节。
  • 结果

  • 原因分析:作者认为,Tokenization的过程由于是有损压缩,不可避免地丢掉了一些"细微的动态信息"。

    • 对于重建画面来说,这些丢失的信息可能无关紧要(比如背景的一点噪点)。

    • 但对于推断动作来说,这些细微的像素变化(比如手指微微动了一下)可能恰恰是判断动作的关键线索。

    • 结论: 为了动作提取的准确性,必须让 LAM 看原始像素,不能看 Token。

3.4.2 Tokenizer architecture ablations
  • 核心问题: 视频压缩到底是用传统的图像方法,还是复杂的视频方法,还是 Genie 提出的新方法?

    • 方案一:Spatial-only ViT

      • 原理: 只在空间上算注意力,把视频当成一堆独立的图片来处理。

      • 缺点: 完全没有时间概念。它不知道这一帧和上一帧的关系,导致压缩出来的 Token 丢失了连贯性。

    • 方案二:Spatial-temporal C-ViViT

      • 原理: 它使用全时空注意力

      • 特点: 每一个 Token 都要和全视频所有时间、所有位置的 Token 算关系。

      • 结果:

        • 内存消耗极其巨大。
        • 过拟合: 表现反而很差。因为它太复杂了,参数太灵活,导致在训练集上死记硬背,泛化能力不行,必须用很强的正则化手段才能勉强训练。
    • 方案三:Spatial-temporal ST-ViViT

      • 原理: 我们之前讲过的 ST-Transformer。先算空间,再算时间。

      • 结果:

        • 画质 (FVD): 最优。
        • 可控性 (ΔtPSNR\Delta_t \text{PSNR}ΔtPSNR): 最优。
        • 效率: 内存消耗适中(线性增长),是完美的平衡点 (Trade-off)
相关推荐
c0d1ng2 小时前
论文阅读(十二月第四周)
论文阅读
Matrix_112 小时前
论文阅读:Auto-Directed Video Stabilization with Robust L1 Optimal Camera Paths
论文阅读·计算摄影
数说星榆18113 小时前
项目管理跨职能泳道图在线生成方法
论文阅读·流程图·论文笔记
dundunmm2 天前
【论文阅读】Spatial-Temporal Graph Learning with Adversarial Contrastive Adaptation
论文阅读·自适应·对比·对抗·时空数据·时空图学习
红苕稀饭6662 天前
ES3论文阅读
论文阅读
红苕稀饭6662 天前
Llama-AVSR论文阅读
论文阅读·llama
阿正的梦工坊2 天前
论文阅读WebDancer: Towards Autonomous Information Seeking Agency
论文阅读·人工智能·深度学习·机器学习·llm
cqbzcsq3 天前
蛋白质功能预测模型DAMPE论文阅读报告
论文阅读·人工智能·python·深度学习·生物信息学
红苕稀饭6663 天前
MLCA-AVSR论文阅读
论文阅读