Cosmos：英伟达发布世界基础模型，为机器人及自动驾驶开发加速！

1. 简介

在2025年消费电子展（CES）上，NVIDIA发布了全新的Cosmos平台，旨在加速物理人工智能（AI）系统的开发，尤其是自主驾驶车辆和机器人。该平台集成了生成式世界基础模型（WFM）、视频标记器、安全防护机制以及一个加速的数据处理管道，这些功能帮助开发者在减少对真实世界数据依赖的情况下创建和优化AI模型。

NVIDIA首席执行官黄仁勋在展会上表示："机器人技术即将迎来像ChatGPT那样的转折时刻。与大型语言模型一样，世界基础模型是推动机器人和自主驾驶车辆发展的核心，但并非所有开发者都有能力和资源来训练自己的模型。我们创建Cosmos就是为了让物理AI的开发更加普及，让每个开发者都能接触到通用机器人技术。"

Cosmos模型可以根据文本、图像和传感器数据生成基于物理的高清视频，使其适用于视频搜索、合成数据生成和强化学习等应用。开发者能够定制模型以模拟工业环境、驾驶场景以及其他特定用例。Agility Robotics的首席技术官Pras Velagapudi指出："数据稀缺性和变异性是机器人环境成功学习的关键挑战。Cosmos的文本、图像和视频到世界的能力使我们能够生成和增强各种任务的场景，从而在不需要过多昂贵的真实数据捕获的情况下训练模型。"

目前，多家主要的机器人和运输公司，包括Agile Robots、XPENG、Waabi和Uber，已经开始采用Cosmos进行AI开发。Uber首席执行官Dara Khosrowshahi表示："生成式AI将驱动未来的出行，既需要丰富的数据，也需要强大的计算能力。通过与NVIDIA的合作，我们有信心帮助加速安全、可扩展的自主驾驶解决方案的进程。"

官方网站：Deep Imagination Research | NVIDIA

2.生成效果

可在官网查看完整视频

3.论文详解

摘要

**物理AI（Physical AI）**是一个配备了传感器和执行器的AI系统：传感器允许它观察世界，执行器允许它与世界交互并修改世界。如我们所熟知的自动驾驶。

虽然人工智能的几个领域在最近十年里由于数据和计算的扩展而取得了显著的进步，但物理人工智能只取得了较少的进步。这在很大程度上是因为扩展物理AI的训练数据更具挑战性、更难获得，因为所需数据必须包含交错的观察和动作序列。这些行为扰乱了物理世界，并可能对系统和世界造成严重损害。

研究者们希望创建一个强大的基础平台，专门用于支持和促进物理人工智能系统的发展。物理AI可以在这种平台进行模拟实验，我们称其为：世界基础模型（World Foundation Model，WFM）。世界模型是一个物理世界的数字孪生模型，物理人工智能可以与之安全地交互，它一直是人们长期寻求的各类问题的解决方案。世界模型将对开发者提供的帮助包括：

**策略评估：**评估物理AI系统中策略模型的质量。使用WFM，构建者可以在不可见的环境中部署策略模型。WFM可以帮助开发人员快速排除无效策略，并将物理资源集中在少数有希望的策略上。
策略初始化：一个经过良好训练的WFM可以作为策略模型的良好初始化。这有助于解决物理AI中的数据稀缺问题。
策略训练：与奖励模型配对的WFM可以是物理世界的代理，以在强化学习设置中向策略模型提供反馈。通过与WFM的交互，Agent可以获得解决任务的熟练度。
规划或模型预测控制：物理AI可以根据整个仿真结果执行最佳动作序列，如规划算法或滚动时域方式，如模型预测控制。世界模型的准确性上限将决定这些策略的性能。
合成数据生成：WFM可用于生成用于训练的合成数据。

通过这个平台，物理AI的开发者可以更专注于创新和优化他们的系统，而不必从头开始解决所有基础问题。这将加速物理AI技术的发展，推动其在各个领域的应用和普及。

在本文中，作者介绍了用于构建物理AI的Cosmos平台，这是一个专门用于机器人、自动驾驶等领域的世界模型，其中的观察是以视频的形式呈现的，可以以形式存在输入扰动，为物理AI训练提供帮助。

世界基础模型

世界模型的基本形式 ：设是从时间0到t的对真实的世界的视觉观察的序列。是世界模型的扰动。如图所示，WFM是一个模型，它基于过去的观测值和当前的扰动来预测未来时间t+1的观测值。在图中的例子中，是一个RGB视频，而是一个可以采取多种形式的扰动，如可以是物理人工智能采取的操作、随机扰动、扰动的文本描述等。

当前的Cosmos：Cosmos由几个主要组件组成：视频管理器(video curator)、视频tokenizer、预训练的世界基础模型、世界基础模型后训练样本(world foundation model post-training samples)和护栏(guardrail)。

视频管理器：作者开发了一个可扩展的视频数据管理管道。每个视频都被分割成单独的镜头，而不改变场景。然后对剪辑应用一系列过滤步骤，以定位用于训练的高质量和动态信息丰富的子数据集。然后使用VLM对这些高质量镜头进行注释。然后，作者进行语义重复数据删除，以构建一个多样但紧凑的数据集。
视频tokenizer ：作者开发了一系列不同压缩比的视频tokenizer。这些token是因果关系，即当前帧的token的计算不基于未来的观察。
WFM的预训练 ：作者探索了两种可扩展的方法来构建预训练的世界基础模型：扩散模型和自回归模型。
- 对于基于扩散的WFM，预训练包括两个步骤：1）Text2World生成预训练和2）Video2World生成预训练。具体来说，作者训练模型根据输入的文本提示生成视频世界。然后对其进行微调，以根据过去的视频和输入文本提示生成未来的视频世界，作者将其称为Video 2 World生成任务。
- 对于基于自回归的WFM，预训练由两个步骤组成：1）原版的next-token生成和2）文本条件的Video 2 World生成。作者首先训练模型，以根据过去视频生成的未来的视频世界。然后，作者对其进行微调，以根据过去的视频和文本提示生成未来的视频世界。
世界基础模型后训练样本：展示了预训练的WFM在几个下游物理AI应用程序中的应用。
护栏：为了安全使用基础模型，作者开发了一个护栏系统，其中有害的输入和输出被阻止。

数据

数据集

作者使用专有的视频数据集和公开的开放域互联网视频来训练我们的模型。作者的目标是帮助物理AI开发人员。为此，作者策划了视频训练数据集，以涵盖各种物理AI应用程序，并针对以下视频类别：

驾驶（11%）
手部运动和物体操作（16%）
人体运动和活动（10%）
空间意识和导航（16%）
第一人称视角（8%）
自然动力学（20%）
动态摄像机移动（8%）
合成渲染（4%）
其他（7%）。

这些视频提供了不同的视觉对象和动作的广泛覆盖。它们的多样性提高了WFM的泛化能力，并帮助模型处理不同的下游任务。

总的来说，作者积累了大约2000万小时的原始视频，分辨率从720p到4k。然而，大量的视频数据要么是语义冗余的，要么不包含用于学习世界物理的有用信息。因此作者设计了一系列数据处理步骤，以找到原始视频中最有价值的部分进行训练。

数据处理管道

作者的管道由5个主要步骤组成：1）分割，2）过滤，3）注释，4）重复数据删除和5）分片。每一步都是量身定制的，以提高数据质量并适应模型训练的要求。

分割

它将原始视频作为输入，并生成每个镜头的开始和结束帧索引。

使用镜头边界检测算法分割图片
短于2秒的剪辑将被丢弃，因为它们可能是镜头过渡或视觉效果。
将长度超过60 s的剪辑将被一步拆分，以使其最大长度为60 s。

镜头边界检测是一个经典的计算机视觉问题。现有的方法基于视觉特征空间的变化来检测镜头边界，但它们在如何从视频帧中学习视觉特征方面不同。作者在下表中评估了该任务的几种算法。

尽管TransNetV2和AutoShot在现有数据集上的表现更好，但作者发现TransNetV2在更具挑战性的镜头变化上表现更好。使用端到端神经网络（即，TransNetV2）还允许作者通过利用现代GPU进行加速来提高拆分的吞吐量，因此作者使用TransNetV2作为镜头边界检测算法**。**

编码：

作者将每个视频片段重新编码为一致的高质量mp4格式。这简化了后续的数据管理过程。通过统一的视频编解码器，作者用于模型训练的数据加载器的稳定性和效率也大大提高。
作者使用高比特率的h264_nvenc编解码器，并使用具有快速运动和高频纹理的视频对作者的设置进行压力测试，以确保没有可感知的视觉退化。
使用PyNvideoCodec替换ffmpeg进行视频流转码，可以提高加速器利用率，并实现最大的吞吐量提升（0.3702 vs. 0.1026）。作者只保留ffmpeg用于音频混音，并使用PyNvideoCodec来更好地利用GPU中的计算能力。

过滤

从分割步骤产生的视频剪辑是嘈杂的，具有覆盖各种主题的巨大差异和不同的质量。作者设计的过滤步骤如下：

删除视频剪辑的视觉质量不能满足最低要求的
选择高质量的、适合微调的视频剪辑，
选择可用于构建WFM的、定制的数据。

运动过滤

在运动过滤中有两个主要目标：

去除静态或具有随机、突然相机运动（通常来自手持相机）的视频，
为视频打上不同相机运动类型的标记（例如，摇摄、缩放、倾斜等），其可提供额外信息以指导模型训练。

作者建立了一个轻量级的运动过滤分类器。分类器的输入是从视频剪辑中提取的运动矢量或光流序列。该分类器基于ViT架构，并使用标记的视频进行训练。作者经过实验发现，基于NVIDIA TensorRT加速光流估计(NVIDIA TensorRT-accelerated optical flow estimation)构建的分类器效果最佳，可为运动过滤提供高分类精度。

视频质量过滤

作者考虑两个标准，失真和外观质量，用于基于视觉质量的过滤。

**首先，作者移除具有失真的视频剪辑，**例如伪影、噪声、模糊、低清晰度、过度曝光、曝光不足等。使用DOVER给出每个剪辑的感知质量分数，并且作者使用该分数来移除在底部15%中的剪辑。
第二，过滤掉具有低外观质量的视频剪辑。作者将图像美学模型（image aesthetic model）应用到视频片段的部分采样帧上。然后设置了一个保守的阈值，即，3.5，因为美学对物理AI来说不太重要。

文本叠加过滤

作者的目标是学习世界的物理学。删除包含此类过多文本的视频至关重要。不过请注意，这里关注的是在后期处理中添加的文本，而不是创建视频的原始场景中的文本，例如驾驶视频中的街道名称。

作者训练了一个基于MLP的二值分类器来检测这类视频。分类器的输入是使用InternVideo2提取的视频embedding。作者使用专有的VLM来构建训练集，以标记正面和负面视频。

视频类型过滤

为了调整训练数据分布并过滤掉不需要的视频类型，作者训练了一个分类器，用输出类别来标记每个视频片段。作者通过排除可能导致生成质量差或不切实际的动态的特定视频类型（例如抽象视觉模式，视频游戏画面，动画内容等）以及对不太重要的类别进行下采样（例如，自然或风景视频）来细化数据。

由于缺乏相关数据集，作者利用专有的VLM为分类器创建训练和评估数据。对于每个视频剪辑，作者用八个均匀采样的帧提示VLM，并查询最合适的分类标签。使用这些注释数据，作者在相同的InternVideo2 embedding上训练MLP分类器。

注释

文本描述通常与图像和视频数据配对，为世界模型训练提供监督和条件。作者使用VLM为每个视频片段生成高质量和一致的字幕。

此外，作者以一种使其专注于视频中的重要事实和细节的方式配置VLM。使用这种方法来提供视频的描述，而不是依赖于文本，也减轻了学习世界模型的负担。

作者发现VILA在小规模的人类评估数据集上能生成更准确的描述。因此作者使用内部的VILA模型，其具有13B参数，先针对视频字幕进行了微调。然后生成注释。

重复

考虑到作者的视频数量之多，训练集中可能存在重复或接近重复的样本。对数据进行重复数据删除对于创建更加平衡和多样化的数据分布至关重要。

作者在过滤过程中重新使用InternVideo2 embedding进行k-means聚类计算，其中k = 10，000，𝑘我们计算每个嵌入聚类内的成对距离以识别重复项。并使用多节点GPU加速以实现对检测。检测到重复视频时，作者会选择分辨率最高的视频，以确保不会因重复数据删除而导致质量下降。

为了避免将整个距离矩阵存储在GPU内存中，作者在256个块中实时计算所需的上三角矩阵，并进行argmax约简。

成对距离矩阵

定义：成对距离矩阵是一个矩阵，其中每个元素表示两个数据点之间的距离。在机器学习和数据挖掘中，这种矩阵常用于聚类、相似性搜索等任务。

存储问题 ：对于大规模数据集，成对距离矩阵会非常大，直接存储整个矩阵可能会超出GPU的内存容量。

优化策略

计算方式 ：为了避免存储整个矩阵，这里采用了一种"即时计算"（on-the-fly）的方法。这意味着在需要时才计算矩阵的某些部分，而不是一开始就计算并存储整个矩阵。

上三角矩阵 ：在成对距离矩阵中，通常只需要上三角部分，因为下三角部分与上三角部分是对称的（即距离矩阵是对称的）。因此，只计算和存储上三角部分可以节省内存。

分块处理 ：将上三角矩阵分成大小为256×256的块进行处理。这种方法可以减少一次需要处理的数据量，从而降低内存需求。

argmax reduction：在每个块中，进行argmax reduction操作，即找出每个块中最大值的位置（argmax）和最大值本身（max）。这通常用于确定最相似的数据点或进行其他基于距离的决策。

在重复数据删除过程中，作者删除了约30%的训练数据。

Sharding

这一步的目的是将处理后的视频剪辑打包到模型训练器进行训练。

作者根据视频的分辨率、宽高比和长度对视频进行Sharding。

Sharding是一种数据分区技术，主要用于分布式系统中，以提高系统的可扩展性和性能。其基本思想是将一个大的数据集分割成多个较小的部分（称为shards），并将这些部分分布在不同的节点或存储设备上。

优点：

负载均衡：sharding可以将请求均匀地分配到各个节点上，实现负载均衡，防止某些节点因请求过多而响应缓慢或崩溃。

容错性增强：即使某个节点发生故障，其他节点仍然可以继续提供服务，因为数据已经被分散存储。这提高了系统的可靠性和可用性。

灵活的数据管理：可以根据数据的访问模式和业务需求，灵活地进行sharding策略的设计和调整，以优化数据的存储和访问效率。

除了预训练数据集之外，作者还通过利用上述不同的过滤器来创建更高质量的微调数据集。

基础设施

这一节主要讨论了用于处理大规模机器学习工作流的数据处理基础设施。

AnyScale Ray框架：使用AnyScale Ray来实现一个流式处理系统，这种框架能够有效地解决大规模机器学习工作流中的两个关键挑战：
- 高效资源利用：在同质节点上实现资源的有效利用，确保计算资源得到充分利用。
- 高延迟连接下的稳健操作：在与数据源的高延迟连接下，保持系统的稳健运行。
解耦数据传输与计算：通过将数据传输与计算过程解耦，使得系统能够在远程数据存储的情况下高效运行，同时保持内存需求与管道复杂性成比例增长，而不是与数据集大小成比例增长。这使得系统能够进行无限制的流式处理。
并行利用硬件资源：架构允许同时利用互补的硬件资源，例如：
- 使用网络带宽进行数据摄入
- 使用NVDEC单元进行视频解码
- 使用GPU进行计算密集型转换
多资源分配优化：扩展了Fragmentation Gradient Descent算法，以优化多资源分配。调度器会自动扩展各个阶段，以在专用硬件加速器之间保持平衡的吞吐量。

Tokenizer

Tokenizers是现代大型模型的基本构建块。它们通过学习在无监督的方式下发现的潜在空间，将原始数据转换为更有效的表示。具体来说，视觉Tokenizers将原始和冗余的视觉数据（如图像和视频）映射到紧凑的语义标记中，这使得它们对于处理高维视觉数据至关重要。

Tokenizers有两种类型：连续和离散。连续Tokenizers将视觉数据编码到连续潜在嵌入中，如在潜在扩散模型如Stable Diffusion中或VideoLDM。这些嵌入适用于通过从连续分布中采样来生成数据的模型。离散Tokenizers将视觉数据编码成离散潜在码，将其映射成量化索引。

Tokenizers的成功在很大程度上取决于它们提供高压缩率而不影响后续视觉重建质量的能力。一方面，高压缩降低了存储和计算需求。另一方面，过度压缩会导致重要视觉细节的丢失。这种权衡在令牌化器设计中提出了重大挑战。

Cosmos Tokenizer提供了一套不同类型的视觉Tokenizer，包括连续和离散的图像和视频Tokenizer。Cosmos Tokenizer提供卓越的视觉重建质量和推理效率。它提供了一系列压缩率，以适应不同的计算限制和应用需求。

作者直接在高分辨率图像和长时间视频上训练tokenizer，而不限制类别或长宽比。与专注于特定数据类别和大小的现有tokenizer不同，Cosmos tokenizer可跨各种宽高比运行，包括1：1、3：4、4：3、9：16和16：9。它们在推理过程中是时间长度不可知的，能够在训练的时间长度之外进行标记化。

结构

Cosmos Tokenizer被设计为编码器-解码器架构。给定输入视频，其中H、W、T是帧的高度、宽度和数量，编码器（）将输入标记为标记视频，其中空间压缩因子为，时间压缩因子为。然后，解码器（D）从这些令牌重构输入视频，从而得到重构的视频。

Cosmos Tokenizer采用时间因果设计，即确保每个阶段只处理当前和过去的帧，独立于未来的帧。与常见的方法不同，作者的Tokenizer在小波空间中操作，其中输入首先由2级小波变换处理。具体地，小波变换以逐组方式映射输入视频，以将输入沿x、y和t下采样为沿着4的因子。具体来说，组为：.随后的编码器级以时间因果方式将帧处理为，最终输出令牌。

小波变换（Wavelet Transform）是一种数学工具，它是一种在时间和频率上都有限支撑的函数，通常具有零均值和快速衰减的特性。常见的小波函数包括Haar小波、Daubechies小波、Morlet小波等。用于将信号或数据分解为不同尺度和位置的组成部分。

它在信号处理、图像处理、数据压缩、数值分析等众多领域都有广泛的应用。小波变换的核心思想是通过一系列小波函数（wavelets）来分析信号，这些小波函数在时间和频率上都具有局部化特性，能够同时提供信号在时间和频率域的信息。

在每个块中，作者采用时空分解的3D卷积，其中首先应用核大小为1×k×k的2D卷积来捕获空间信息，然后应用核大小为k × 1 × 1的时间卷积来捕获时间动态。作者使用-1的左填充来确保因果关系。

训练策略

作者采用联合训练策略，以预设的频率交替小批量图像和视频。作者只监督tokenizer的解码器的最终输出。而不使用潜在空间中的辅助损失，例如commitment 或 KL prior损失。

作者采用两阶段培训计划。

在第一阶段，使用L1损失和感知损失进行优化
1. 该L1损失最小化输入和重建视频之间的像素级RGB差异，由下式给出：
2. 基于VGG-19特征的感知损失：
在第二作者段，我们使用光流（OF）损失和Gram-matrix (GM)损失
1. 使用光流（OF）损失来处理重建视频的时间平滑度：
2. 和Gram-matrix (GM)损失为了增强重建图像的清晰度：
此外，作者在微调阶段使用对抗性损失来进一步增强重建细节，特别是在大压缩率下。

作者以两种压缩率训练图像tokenizer（表示为CI和DI）：8 × 8和16 × 16。类似地，作者以三种压缩率训练视频tokenizer（表示为CV和DV）：4 × 8 × 8，8 × 8 × 8和8×16×16。

评估

TokenBench：对于视频tokenizer评估，目前还没有针对高分辨率和长持续时间视频的标准基准。为此，作者引入了一个名为TokenBench的基准测试，以涵盖广泛的领域，包括机器人操作、驾驶、自我中心和网络视频，并对评估进行标准化。

与现有技术相比，Cosmos Tokenizer始终实现了最先进的结果，压缩比为8 × 8。更重要的是，在16 × 16的4倍压缩比下，Cosmos Tokenizer的图像质量通常与8 × 8压缩比下的现有技术相当，甚至更好，如表中所示。

图9显示了在单个A100 80GB GPU上测量的每个图像或每个视频帧的参数数量以及平均编码和解码时间。如图所示，对于图像和视频tokenizer，Cosmos Tokenizer在保持最小模型大小的同时，比现有技术快2倍〜 12倍，这表明Cosmos Tokenizer在编码和解码可视内容方面具有高效率。

Pre-training

作者利用两种不同的可扩展深度学习范式（扩散模型和自回归模型）来构建两种WFM。扩散模型和自回归模型都将一个困难的生成问题分解为一系列较容易的子问题，并加速了生成模型的发展。在扩散模型的情况下，困难的生成问题被分成一系列的去噪问题。在自回归模型的情况下，困难的生成问题被分成一系列的next-token预测问题。

对于基于扩散的WFM，作者首先构建两个分别为7 B和14 B的Text 2 World模型，这两个模型分别渲染2个Text 2 World模型，这些模型可以将文本提示映射到视觉世界的视频。然后，作者微调Text 2 World模型以让模型获取额外的视频输入，从而表示当前的观察结果。结果是Video 2 World模型，其中基于当前观察（输入视频）和扰动（文本提示）来预测未来视频。

对于基于自回归的WFM，作者首先构建两个大小分别为4 B和12 B的基础模型，纯粹基于当前视频观察来预测未来的视频，都是Llama 3风格的GPT模型，从头开始训练视频预测任务，并且没有语言理解能力。为了使基于自回归的WFM能够利用文本信息进行下一个标记预测，作者通过添加到Transformer块的交叉注意层将输入文本提示的T5 embeddings到WFM中。

tokenizer的大量压缩有时会导致不希望的失真。为了解决这个问题，作者通过微调Cosmos-1.0-Diffusion-7 B-Text 2 World模型来构建扩散解码器，以将DV 8x 16 x16空间中的离散令牌映射到CV 8x8 x8空间中的连续令牌。

Diffusion-based World Foundation Model

模型架构

去噪器的架构是基于DiT设计的。

3D切分：为了准备去噪网络的输入，作者首先使用一个线性层来切分tokens，然后将其展平。

3D RoPE：具体来说，作者将特征维度划分为三个大致相等的块，每个块分别沿时间轴、高度轴和宽度轴沿着应用具有位置信息的RoPE。

以文本为条件的交叉注意力：每个Transformer块由自注意、交叉注意和前馈层组成。当自注意力在时空tokens上操作时，交叉注意力使用T5-XXL集成语义上下文embeddings为键和值，从而实现有效的文本调节。

Query-Key 归一化：在训练的早期阶段，作者观察到注意力对数增长的不稳定性，导致注意熵的崩溃。因此在注意力操作之前对Query和Key进行归一化，具体使用均方根归一化（RMS Norm），并对网络中的所有自注意和交叉注意层使用可学习的scales进行操作。

AdaLN-LoRA：作者发现，DiT的自适应层归一化（AdaLN）层占模型参数的很大一部分，而在FLOP方面对计算复杂性的贡献可以忽略不计。因此作者实现了低秩自适应（LoRA）来将这些层中的密集线性投影分解成低秩近似。对于Cosmos-1.0-Diffusion-7B，此架构优化实现了36%的参数数量减少。

训练策略

图像和视频联合训练：为了在模型训练中利用大量高质量、多样化的图像数据集，作者实施了一种交替优化策略，将图像和视频数据批量交错。

渐进式训练：作者采用渐进式训练策略，初始阶段涉及在512像素分辨率的视频和图像上进行训练，使用的视频由57帧组成。随后，作者过渡到720像素的目标分辨率，并将视频长度增加到121帧。在对海量数据进行预训练后，作者在一个高质量的子集上对模型进行微调，以线性衰减的学习率进行10次迭代。

多方面的训练：为了适应具有不同长宽比的内容，作者将数据组织到五个不同的桶中，分别对应于1：1、3：4、4：3、9：16和16：9的长宽比，并将每个图像或视频分配到具有最接近长宽比的桶中。在训练期间，每个数据进程组从一个存储桶中采样。

混合精确度训练：作者维护了两个模型权重副本：一个在BF16中，另一个在FP32中。在向前和向后传递过程中，BF16权重用于提高训练效率，导致梯度和激活也采用BF16格式。对于参数更新，在FP32中更新权重，以确保数值稳定性。然后，复制更新的FP32参数并将其转换到BF16以进行下一次迭代。

**文本条件控制：**对于Text 2 World模型，作者采用了T5-XXL作为文本编码器。对T5 embedding进行零填充以保持固定的序列长度512。为了增强文本-上下文对齐，作者采用了无分类器的指导（CFG)

图像和视频控制：作者扩展了Text2World模型来构建Video2World模型，通过将先前的帧纳入生成过程来支持图像和视频调节。具体地，条件帧沿着时间维度沿着与所生成的帧级联。为了提高对推理过程中输入帧变化的鲁棒性，作者在训练过程中向条件帧引入增强噪声。为了提高泛化能力，作者在训练过程中随机改变条件帧的数量。在推理过程中，模型可以灵活地使用单个条件帧（图像）或多个先前帧作为输入。

scales

作者的14 B模型（Cosmos-1.0-Diffusion-14 B-Text 2 World）需要大约280 GB用于模型参数、梯度和优化器状态，以及310 GB用于高分辨率预训练期间的激活。

上下文并行性（CP）：针对长上下文设置Scaling transformers带来了增加FLOP和激活内存的挑战。CP通过在多个GPU之间分配计算和激活来应对这些挑战。它的工作原理是将Query和Key、Values（K，V）沿着它们的序列维度分割成CP_SIZE块，其中CP_SIZE是CP组中GPU的数量。每个GPU处理的一个块，并使用存储在同一CP组中的，不同的CP利用不同的通信原语，包括all-gather, P2P, and all-to-all。

以Cosmos-1.0-Diffusion-14 B为例，采用sharding factor为64的FSDP可降低参数、梯度和优化器状态的内存需求，使其从每GPU 280 GB降至约280 / 64 GB。类似地，使用CP_SIZE = 8的CP将激活内存从每GPU 310 GB减少到大约310 / 8 GB。重要的是，这些计算是低估的;在实践中，tokenizer和未分片参数会消耗额外的内存。

Prompt Upsampler

**Text 2 World模型的上采样器：**为了弥合训练和推理文本提示之间的差距，作者开发了一个提示上采样器，将原始输入提示转换为更详细和丰富的版本。它可以通过添加更多细节和保持一致的描述结构来改进提示，从而提高输出质量。

其主要特点为：

对输入提示的保真度：上采样的提示必须忠实地保留原始用户输入的关键元素，包括主要角色、动作或运动、关键属性和整体意图。
与训练分布一致：上采样的提示应该在长度、语言结构和风格方面与WFM的训练提示的分布非常相似。
增强的视觉细节：上采样提示应被设计为提示WFM生成更准确的图像。

作者训练VLM来根据长提示和对应的视频生成对应的短字幕。这种从长到短的数据创建策略在(1)从WFMS的详细训练提示中保留真实的视频内容以及(2)确保短提示和长提示之间的保真度方面是有效的。由此产生的即时上采样器被命名为Cosmos-1.0-PromptUpsampler-12B-ext2world。

**Video 2 World模型的上采样器：**对于Video 2 World模型，输入由视频条件和用户文本提示组成。为了增强用户提示，作者利用开源VLM，Pixtral-12 B，结合zero-shot提示工程，以将提示上采样为考虑视频条件和用户提示两者的详细描述。

Cosmos-1.0-Diffusion-7 B-Text 2 World和Cosmos-1.0-Diffusion-14 B-Text 2 World模型生成 Video2World 7B和14B模型生成的视频。

Autoregressive-based World Foundation Model

在自回归WFM中，作者将世界模拟生成公式化为类似于语言建模的next-token预测任务。作者使用Cosmos离散tokenizer将视频转换成离散视频令牌的序列。然后训练一个Transformer解码器来使用过去的视频token作为上下文来预测下一个视频token。

作者的基于自回归的WFM架构如图所示，作者对模型架构进行了若干修改，包括添加3D感知位置嵌入，交叉关注以实现用于更好控制的文本输入，以及QK归一化。

**3D位置嵌入：**作者结合了两个互补的位置嵌入机制：用于相对位置的3D factorized Rotary Position Embedding (RoPE)和用于绝对坐标的3D factorized absolute positional embedding (APE)。这些机制协同工作，在整个网络中提供全面的空间和时间信息。

3D旋转位置嵌入（RoPE） ：作者以编码时间，高度和宽度维度的相对位置信息将3D RoPE应用于模型 。在训练过程中，作者采用了多阶段的训练策略 ，其中视频的序列长度随着训练的进行而增加。为了使3D RoPE适应变化的持续时间，作者使用YaRN ，一种计算效率高的技术，旨在扩展RoPE的上下文窗口。作者仅沿时间轴沿着应用YaRN扩展，因为视频序列长度仅沿时间维度沿着增加。通过利用YaRN，我们的模型可以外推到比训练初始阶段遇到的更长的上下文长度。
3D绝对位置嵌入（APE）：作者还在每个Transformer块中包含3D APE以补充相对位置编码。该APE使用在时间、高度和宽度维度上分解的正弦嵌入对位置信息进行编码，确保模型知道绝对位置。嵌入直接添加到每个阶段的输入张量，丰富了Transformer的位置上下文。我们发现，结合绝对和相对位置编码可以提高模型性能，减少训练损失，并最大限度地减少生成视频中的变形伪影。

词表：作者利用标量量化（FSQ）将6维潜在空间量化为（8，8，8，5，5，5）个级别。这种量化导致词汇量为8×8×8×5×5×5 = 64000。

**文本条件控制的交叉注意力：**除了Transformer架构中存在的自注意块之外，作者还添加了交叉注意层，以使模型能够以输入文本为条件。在Transformer模型的特征和从预训练的文本编码器（T5-XXL）获得的文本嵌入之间应用交叉关注。

Query-Key 归一化 ：QKNorm通过在计算它们的点积之前对Query和Key向量进行归一化来解决注意机制中的不稳定性，从而防止softmax函数饱和并确保更有效的学习。归一化后，点积由一个可学习的参数而不是固定的进行缩放。这种可学习的比例因子允许模型自适应地控制注意力得分的大小，从而增强了灵活性和表现力。

z-loss ：为了进一步提高训练稳定性，作者在训练目标中引入了一个称为z-loss的稳定性术语。z-loss惩罚logit与零的偏差，有效地阻止模型生成可能导致数值不稳定或梯度爆炸的过大logit值。z-loss定义为对数平方和，即。作者发现，z-loss对于将梯度范数保持在正常范围内至关重要，尤其是在将训练扩展到大量GPU节点时。

训练策略

作者在多个阶段对自回归WFM进行预训练。

阶段1：在第一阶段，使用视频预测目标训练模型。给定第一帧作为输入条件，该模型被训练以预测未来的视频帧。即，该模型以第一帧作为输入来预测16个未来帧。

阶段1.1：此阶段执行视频预测，但增加了34帧的上下文长度。我们在时间维度上使用YaRN扩展来增加RoPE的上下文长度。

第2阶段：在训练的第2阶段，作者将文本条件控制引入模型。文本嵌入使用新初始化的交叉注意层。该模型使用34帧上下文进行训练。为了提高文本到视频的生成能力，使用联合图像和视频数据来训练模型。当使用图像批次时，作者使用更大的批次大小，因为图像的上下文长度比视频的上下文长度小得多。

Cooling down：在预训练之后，作者使用高质量的数据进行"冷却"阶段，类似于LLM训练实践。在此阶段，作者将学习速率线性衰减至0，同时对高质量图像-视频对进行训练。冷却阶段执行30000次以上的迭代。

Diffusion Decoder

作者的Cosmos tokenizer使用轻量级的编码器-解码器架构来执行积极的压缩，这减少了作者WFM训练的令牌数量。由于过大的压缩，它有时可能会导致视频生成中的模糊和可见的伪影，特别是在自回归WFM设置中，因此作者求助于扩散解码器设计，具体来说，作者通过微调Cosmos-1.0-Diffusion-7 B-Text 2 Video来构建一个更强大的标记器解码器。

为了计算条件输入，作者首先基于可学习的词汇嵌入层将离散令牌视频的每个离散令牌嵌入到16维向量中。然后，沿着方向和方向对嵌入进行沿着2×上采样，使得条件输入将与来自连续令牌视频的噪声输入到去噪器的大小相同。去噪器的第一层是通道维度扩展的，以适应新的输入形状。我们通过去除添加的噪声来微调更新的Cosmos-1.0-Diffusion-7 B。

下图显示了使用不同模型大小的自回归WFM的定性结果。在自动设置中，比较Cosmos-1.0-Autoregressive-4 B和Cosmos-1.0-Autoregressive-12 B模型，可以观察到12 B模型生成的视频具有更好的运动和更清晰的细节。类似地，在提示设置中，比较Cosmos-1.0-Autoregressive-5 B-Video 2 World和Cosmos-1.0-Autoregressive-13 BVideo 2 World揭示了13 B模型比5 B模型获得更好的运动。

评估

3D一致性

WFM旨在通过视频生成来模拟3D世界，并且必须评估生成的视频与视觉世界的3D结构的一致性。除了看起来逼真之外，生成的视频还应该随着时间的推移保持与场景物理原理的一致性，这是下游物理人工智能应用程序的关键要求。

测试数据和基线：作者从RealEstate10K数据集的测试集中随机选择了500个视频的数据集。此外，我们还使用专有的VLM为视频添加字幕，以获得将视频描述为静态场景的文本提示，因此无需考虑用于度量计算的场景运动。作者将其与VideoLDM作为基线方法。

**指标：**生成的视频实际上是底层3D视觉世界的2D投影。作者设计了以下指标来衡量生成视频的3D一致性。

几何一致性：通过量化如何满足核线几何约束来评估我们生成的世界的3D一致性，包括Sampson误差和相机姿态估计算法的成功率。
查看合成一致性：评估了WFM在保持与底层3D结构的一致性的同时，在插入的新视点合成图像的能力。

Cosmos WFM在几何和视图合成一致性方面比作者的基线模型实现了更好的3D一致性。Cosmos WFM的兴趣点不仅具有更高的3D一致性，而且相机姿态估计成功率也明显更高，反映了整体质量的提高和3D一致性的增强，甚至达到了真实世界视频的水平。在成功估计相机姿态的情况下，合成的保持出的视图在所有图像合成度量中表现出更高的质量。

物理校准

为了测量有多少直观的物理学自然出现在大规模的数据驱动的预训练。作者使用物理模拟引擎设计了一个受控的基准数据集，以测试我们预先训练的WFM是否符合牛顿物理学和刚体动力学。

合成数据生成：使用PhysX和Isaac Sim，作者设计了八个3D场景，旨在评估不同的物理效果：

自由落体：落在平面上的物体（重力、碰撞等）
倾斜的平面斜坡：从斜坡上滚下的物体（重力、惯性矩等）
U形斜坡：从U形斜坡滚下的物体（势能、动能等）
稳定的堆放物体：一堆平衡的物体（平衡的力量）
不稳定堆放物体：不平衡的对象堆栈（重力，碰撞等）
多米诺骨牌：矩形砖块按顺序落下的顺序（动量转移、碰撞等）
跷跷板：跷跷板两侧的物体（扭矩、转动惯量等）
陀螺仪：在平面上旋转的陀螺（角动量、进动等）

对于每个场景，作者随机选择动态对象的数量和类型（不同的大小，纹理，形状），从Omniverse以及背景外观中选择，并从4个不同的静态相机视图渲染输出视频。我们总共渲染了800个100帧长度的1080p视频。每个模拟的对象都经过定位，以便它们从第一帧都可见，以避免任何存在模糊性。

为了进行评估，作者使用以下指标：

像素级指标。对于像素级别的比较，计算峰值信噪比（PSNR）与结构相似度指数度量（SSIM），以比较WFM卷的预测帧与真实视频中的参考帧。
功能级别的度量。对于稍高级别的语义比较，计算DreamSim相似性分数，即预测帧和参考帧之间的特征相似性度量。
对象级度量。将第一帧中的真实实例掩码传播到其余的预测视频帧中以提取轨迹，从而允许我们量化对象级度量。作者为每个帧和感兴趣的对象计算地面实况和预测对象掩码之间的交集-并集（IoU）。

从表中，作者还发现基于扩散的WFM以更高的视觉质量渲染视频。

作者还注意到，作者的结果并不表明较大的模型在物理对齐上表现得更好。虽然更大的模型以更高的视觉质量渲染视频，但所有WFM都同样需要遵守物理规则，并需要更好的数据管理和模型设计。

Post-trained

在本节中，作者将演示如何对Cosmos WFM进行微调，以支持各种物理AI应用程序。

包括以下示例：使用相机控制对WFM进行后训练，以实现3D可导航视觉世界生成;使用两种不同机器人设置的动作控制对WFM进行后训练，以执行两种不同的机器人操作任务;以及使用多视图支持对WFM进行后训练，以训练自动驾驶代理。

用于摄像机控制的模型

通过相机姿态调节，作者将相机控制集成到Cosmos-1.0-Diffusion-7 B-Video 2 World中，使其成为有效的3D世界模拟器。该模型从单个参考输入图像生成3D世界，利用摄像机控制从指定轨迹生成时间上连贯和3D一致的模拟视频，其中视角的变化与场景的底层3D结构一致。作者将训练后的WFM结果称为Cosmos-1.0-Diffusion-7 BVideo 2 World-Sample-CameraCond。

数据集：使用DL 3DV-10 K，一个静态场景的大规模视频数据集，用于此任务。

作为预处理步骤，作者将所有视频分块成具有256帧的片段。

为了密集地获得剪辑内所有帧的相机姿态注释，作者使用GLOMAP，将第一帧的摄像机姿态设置为恒等变换，并计算所有后续帧的相对摄像机姿态。作者还使用专有的VLM来为视频添加字幕，以获得将视频描述为静态场景的文本提示。

微调：我们通过将采样的潜在嵌入与Plücker嵌入连接来添加相机控制条件，其具有与潜在嵌入相同的空间维度。具体来说，给定相机姿态，作者通过计算Plücker坐标：

其中c是相机中心位置，d是每个潜在像素的单位光线方向（其中潜在嵌入被视为下采样图像）。所有的相机姿势都是相对于初始帧的。

作者将训练视频的输入帧大小调整为704×1252，并使用反射将其填充为704×1280。在训练过程中，作者对57帧进行了采样。训练目标和其他超参数与基础扩散WFM训练相同。

评估：作者使用在DL 3DV-10 K上也进行了微调的CamCo模型训练集。由于作者经过训练的WFM生成57帧，而CamCo只能生成14帧，因此作者比较了相同的57帧轨迹，其中对CamCo进行了4倍的时间下采样。

CamCo受到数据分布偏移的影响，并且经常生成不准确的轨迹，甚至是导致不可估计的相机姿势的分布外图像合成。相比之下，Cosmos相机控制模型可以成功地生成与相机控制输入对齐的未来帧，同时还保持高视频质量和3D一致性。

指标：作者从两个方面评估了后训练世界模型的相机可控性：视频生成质量和3D一致性。对于视频质量，使用Fréchet Inception Distance（FID）和Fréchet视频距离（FVD），以分别评估帧和视频级别的质量。

用于机器人操作的模型

在这里，作者演示了如何针对两个任务微调预训练的WFM：（1）基于指令的视频预测和（2）基于动作的下一帧生成。

对于基于指令的视频预测，输入是机器人的当前视频帧以及文本指令，并且输出是机器人遵循指令的预测视频。对于基于动作的下一帧预测，输入是机器人的当前视频帧以及当前帧和下一帧之间的动作向量，输出是显示机器人执行指定动作的结果的预测下一帧。给定一系列动作，模型可以自回归地运行以预测机器人执行给定动作的视频。

数据集：作者为上述两个任务策划了两个数据集。

对于基于指令的视频预测，作者创建了一个称为Cosmos-1X数据集的内部数据集。它包括由EVE拍摄的大约200小时的以自我为中心的视频，EVE是1x.Tech的人形机器人，执行各种任务，包括导航，折叠衣服，清洁桌子，拾取物体等。每一片段都标记有一句话的指令，随后使用专有的VLM进行上采样。视频以30 FPS的速度拍摄，分辨率为512 × 512。
对于基于动作的下一帧生成，作者使用称为Bridge的公共数据集。Bridge数据集包含了大约20，000集的第三人称视角的机器人手臂在厨房环境中执行不同任务的视频，视频分辨率为320 × 256，拍摄速度为5 FPS。对于每个视频帧，将相应的动作定义为夹具坐标空间中的7维向量（Δx，Δy，Δz，Δ𝜃𝑟，Δ𝜃p，Δ𝜃𝑦，Δ Gripper）。

微调：

对于基于指令的视频预测，作者基于基本WFM构建两个模型。作者计算指令的T5 embedding，通过交叉注意力将其添加到基础模型的微调过程中。
对于基于动作的下一帧预测，还基于基本WFM构建了两个模型。

由于动作是一种在预训练过程中没有遇到的新模式，作者添加了一个动作嵌入器MLP，将动作向量投影到张量中，然后通过交叉注意力将其合并到模型中。对于Cosmos-1.0-Diffusion-7 B-Video 2 World-Sample-WavelCond，作者还添加了一个动作嵌入器MLP来将动作添加到张量中，但是却是通过将其添加到DiT模块的时间戳嵌入中来将其纳入模型中。

评估

对于基于指令的视频预测，作者微调VideoLDM在Cosmos-1X数据集上进行，并获得VideoLDM-Instruction作为比较的基线。

如图所示，作者发现Cosmos-1.0-Diffusion-7 B-Video 2 World-Sample-Instruction和Cosmos-1.0 Autoregressive-5 B-Video 2 World-Sample-Instruction在四个评估维度上的表现都优于VideoLDM-Instruction。

在下图中呈现了针对两个微调的WFM的一些预测的视频帧。

计算的指标汇总在下表中，包括PSNR、SSIM、Latent L2和FVD。如图所示，Cosmos-1.0-Autoregressive-5 B-Video 2 World-Sample-BIDCond和Cosmos-1.0-Diffusion-7 BVideo 2 World-Sample-BIDCond模型的性能均优于基线模型（IRASim-Action）。

用于自动驾驶的模型

由于大多数自动驾驶车辆配备有多个摄像头，可以观察不同的方向，因此自动驾驶车辆的理想世界模型也应该是多视图模型，最好与目标车辆中传感器的精确设置相匹配。在这里，作者演示了如何微调预训练的WFM，为自动驾驶任务创建多视图世界模

数据集：作者策划了一个内部数据集，称为Real Driving Scene（RDS）数据集。它包括使用NVIDIA内部驱动平台捕获的约360万个20秒环绕视角视频剪辑（相当于约20000小时的数据）。每个剪辑都是从六个摄像机视图录制的：前、左、右、后、左后和右后。此外，数据集还包括作者用来构建轨迹数据的自我运动信息。作者使用前置摄像头视频的记录时间戳来同步所有其他视图的帧。

此外，作者还通过第二次数据挖掘运行来增强数据集，以确保包含罕见道路结构（例如，收费站、桥梁、隧道、减速带等）。最后，来自每个摄像头视图的视频都单独添加了标题，以模板文本字符串开始，如："视频是从安装在汽车上的摄像头捕获的。摄像头朝前|左|权|落后|左后|右后方"

微调：为了确保在多个视图中生成一致的视频，作者稍微修改了架构设计，并微调WFM以同时从所有六个摄像头生成视频。

作者建立了三个多视图世界模型

第一个称为Cosmos-1.0-Diffusion 7 B-Text 2 World-Sample-MultiView，这是一个多视图世界模型，可以根据文本提示输入生成六个相机视图。
第二个称为Cosmos-1.0-Diffusion-7 B-Text 2 World-Sample-MultiViewTrajectoryCond。该模型建立在Cosmos-1.0-Diffusion-7 B-Text 2 World-Sample-AV-MultiView之上，并将额外的轨迹输入作为条件输入信号。
最终的模型Cosmos-1.0-Diffusion-7 BVideo 2 World-Sample-MultiView是从Diffusion-7 B-Video 2 World-Sample-MultiView模型微调而来的，以支持基于视频的条件控制。它通过将以前的帧合并到生成过程中来实现这一点。
Cosmos-1.0-Diffusion-7 B-Video 2 World-Sample-MultiView可以从Cosmos-1.0-Diffusion-7 B-Text 2 World-Sample-MultiView获取视频输出并生成其扩展。这三款机型都能以848 × 480的分辨率输出6个视图，每帧57帧视频。

轨迹控制：除了文本条件之外，作者还微调模型以生成符合给定未来轨迹路径的视频，从而实现对智能体的更精确控制。

作者将轨迹定义为3D空间中的64个点的序列，表示代理从初始位置（0，0，0）到最终目的地的平移序列，每个点以0.1秒的间隔分开。作者计算轨迹输入的嵌入，并将结果作为微调的Cosmos-1.0-Diffusion-7 B-Video 2 World模型的去噪器的条件输入。

评估：

下图中呈现文本条件的定性结果。使用Cosmos-1.0-Diffusion-7 B-Text 2 WorldSample-MultiView，作者生成了一个57帧的视频，有6个视图，然后使用Cosmos-1.0-Diffusion-7 B-Video 2 World-Sample-MultiView模型扩展到201帧。

在下图中，作者展示了预训练的世界模型如何增强泛化，从而能够从RDS数据集生成罕见或域外场景，例如在河上驾驶。

最后，下图展示了Cosmos-1.0Diffusion-7 B-Text 2 World-Sample-MultiView-TrajectoryCond的结果，其中ego汽车准确地遵循输入轨迹。

评估指标：

生成质量：作者利用Fréchet起始距离（FID）和Fréchet视频距离（FVD）来测量所生成的视频相对于真实的视频的质量。作者首先通过从每个视频中提取16帧来计算每个视图的分数。然后，作者报告每个方法的所有视图的平均得分。
多视图的一致性 ：作者使用Sampson误差的扩展版本，在此设置下，为生成的多视图视频计算两个度量：
- 时间Sampson误差（TSE）衡量每个摄像头生成的内容是否随着时间的推移而一致。它是每个视图的相邻帧的中值桑普森误差。
- 交叉视图Sampson误差（CSE）衡量多视图一致性是否随着时间的推移而保持。它是在时间上平均的不同生成视图之间的Sampson误差。CSE中使用的基本矩阵使用跨所有时间帧累积的关键点来估计。

对象跟踪一致性。最后，作者使用YOLOv11x对生成的8秒视频进行对象检测和跟踪。人类注释者的任务是识别跟踪算法误解物理上不可能的场景的实例，例如两个不同的对象（例如，人和汽车）错误地合并成单个跟踪实体。为了评估这一点，作者向注释者提供了包含157个对象的20个生成视频的随机样本。值得注意的是，157个物体中没有一个表现出任何物理上不可能的场景，这证明了生成的驾驶视频的物理一致性和物体持久性。

Guardrails

为了安全使用WFM，作者开发了一套全面的护栏系统。它分为两个阶段：pre-Guard阶段和post-Guard阶段。pre-Guard阶段利用了Aegis和用于阻止有害提示的关键字列表。post-Guard阶段使用视频内容安全分类器和面部模糊过滤器来阻止有害的视觉输出。

pre-guard

pre-Guard是一个文本域护栏，包括：

一个基于LLM的护栏，用于显示语义复杂的提示；
一个简单的基于列表的检查器，用于标明不安全的关键字。

Keyword Blocking：关键词列表将作为首道防线，以降低生成不安全内容的风险。其核心作用是阻止明显有害内容的生成，即通过在提示中对一个硬编码的阻止列表进行大量明确且令人反感的单词的关键字搜索。

具体做法是借助WordNetLemmatizer对输入单词进行词形还原处理，该工具能够从英语词汇数据库中提取词根，例如，"abacii"的词根就是"abacus"。之后，这些经过词形还原的单词将与硬编码的阻止列表中的单词进行细致比对，一旦发现任何亵渎性词汇，整个提示便会遭到拒绝。我们精心挑选并使用了一套全面的关键字，以此最大程度地保障用户的使用安全。

Aegis Guardrail：作者使用Aegis-AI-Content-Safety-LlamaGuard-LLM-Defensive-1.0作为第二道防线，这是一个微调版本的Llama-Guard，它在NVIDIA Aegis内容安全数据集上进行训练，该数据集涵盖了NVIDIA 13个关键安全风险类别的广泛分类。AEGIS 1.0有两个版本，防御版本和许可版本。防御版本采用比许可版本更严格的权限边界。Cosmos使用Aegis的防御版本来阻止试图生成有害内容的潜在有害用户提示。如果此提示过滤器将输入提示归类为不安全，则不会生成视频，并显示错误消息。

在使用Aegis作为提示过滤器时，如果提示被归类为以下类别：暴力、性、犯罪策划、武器、药物滥用、自杀、儿童性虐待材料、仇恨、骚扰、威胁和亵渎，模型就会认为是不安全的。任何不属于上述类别的提示符都被认为是安全的。

Post-Guard

post-Guard是一个视觉域护栏，包括一个视频内容安全过滤器和一个用于生成输出的面部模糊过滤器。

视频内容安全过滤器：视频内容安全过滤器是一个基于作者的视频数据集和生成结果训练的帧级多类分类器。在这些类别中，有些被认为是安全的，而另一些则不安全。训练分类器的一个主要挑战是平衡假阳性和假阴性，假阳性是安全内容被错误地标记为不安全，假阴性是不安全内容被错误地分类为安全。为了尽量减少分类错误，作者在训练过程中仔细平衡了数据。

作者收集了三种真实注释数据。首先，作者从数据集中采样大量视频，提取帧，并使用VLM确定其类别。接下来，作者使用一组提示让WFM生成合成视频，以确保覆盖角落案例和最少表示的内容类别。最后，人类注释者为数据集的一部分提供了"黄金标准"标签，增加了一个重要的验证层，并帮助不断改进分类器的准确性。

作者提取SigLIP针对每个视频帧进行嵌入，并在嵌入上训练简单的MLP分类器。在推理过程中，作者为每个帧生成SigLIP嵌入，然后应用分类器。如果任何帧被分类为不安全，则整个视频被标记为不安全。

面部模糊滤镜：作者使用RetinaFace，一个SOTA人脸检测模型，以识别具有高置信度分数的面部区域。对于任何大于20 × 20像素的检测到的人脸区域，作者使用像素化来模糊这些区域，同时保留物理AI应用的整体场景组成。

攻击团队

作者聘请了一个专门的红色团队，使用在内部攻击提示数据集中收集的标准和对抗性示例来积极探测系统。这些视频输出由一组专家注释员进行注释，他们为作者的任务接受了专门训练，截至发布之日，红队已经测试和注释了超过10，000个不同的视频对，这些视频对经过精心制作，涵盖了广泛的不安全内容。

总结

Cosmos世界基础模型标志着为物理世界构建通用模拟器的重要一步。这项工作概述了作者的综合方法，包括数据管理管道，连续和离散标记器的设计，扩散和自回归世界基础模型的架构，以及各种下游物理AI任务的微调过程。

限制：WFM的发展仍处于早期阶段。目前的模型都不足以作为物理世界的可靠模拟器。Cosmos模型仍然存在问题，包括缺乏物体持续性，以及指令遵循的不一致。此外，生成的视频的真实性并不总是反映对基本物理原理的遵守，例如重力，光相互作用和流体动力学。

评价是另一项重大挑战。定义人类评估规则是困难的，因为这种评估通常受到个人偏见，背景和其他主观因素的影响。此外，这些评估可能与下游物理AI任务中使用的指标不一致。为了应对这些挑战，有前途的方向包括开发由多模态LLM驱动的自动评估器，并利用现有的物理模拟器来实现可再现和交互式评估，从而减少对人类评估的依赖。

自回归 vs 扩散WFM：评估结果表明基于扩散WFM当前提供了更好的生成质量。

通过微调，基于扩散的WFM能够结合不同的控制信号，包括摄像机姿态、末端执行器位置或自主车辆轨迹，并生成新格式的输出，如多视图视频。

然而，基于自回归的WFM具有显著的未开发潜力。它们可以（1）利用来自大型语言模型（LLM）的预先训练的权重来继承广泛的世界知识，以及（2）通过使用针对因果注意而设计的高级推理优化技术来实现更快的生成。如果完全实现了这些能力，自回归WFM可能变得特别适合于需要交互控制或实时处理的应用，例如机器人中的规划和模拟。

重要的是，扩散模型和自回归模型之间的界限不是严格的。最近的进展已经表明，具有双向注意的扩散转换器可以被提炼成具有因果注意的学生Transformer，从而能够在推理期间支持KV-Cache。类似地，自回归模型可以结合局部双向注意以经由扩散头生成图像。探索这些混合方法及其权衡仍然是一个活跃和有前途的研究领域。

4.总结

这篇文章介绍了一个名为Cosmos World Foundation Model Platform的平台，旨在帮助开发者构建定制化的世界模型，以推进物理AI系统的发展。这是一个物理世界的数字孪生模型，物理AI可以与之安全地交互。WFM作为解决方案，帮助开发者解决数据扩展问题，加速物理AI技术的发展。文章详细介绍了Cosmos平台的各个组成部分，包括视频策划管道、预训练的世界基础模型、后训练示例、视频标记器等。

Cosmos平台的核心在于其预训练和后训练范式。预训练阶段，使用大规模视频训练数据集使模型暴露于多样化的视觉体验，成为通用模型。后训练阶段，通过特定物理AI环境收集的数据集对预训练模型进行微调，使其成为针对特定物理AI设置的专用模型。文章还探讨了两种可扩展的预训练方法：基于变换器的扩散模型和基于变换器的自回归模型。这两种方法都将复杂的视频生成问题分解为更简单的子问题，提高了模型的可扩展性和训练效率。

此外，文章还介绍了视频标记器的设计，这是将视频数据转换为紧凑标记表示的关键组件。视频标记器通过学习视频的紧凑表示，减少了计算复杂度，同时尽可能保留原始视频内容。Cosmos Tokenizer采用了一种轻量级且计算效率高的架构，通过因果时间卷积层和因果时间注意力层，保留视频帧的自然时间顺序，确保图像和视频的无缝标记化。

文章还详细描述了数据策划流程，包括视频分割、过滤、注释、去重和分片等步骤，旨在提高数据质量和适应模型训练需求。通过这些步骤，从大量原始视频中提取高质量、动态丰富的视频片段，并生成训练数据集。文章还介绍了如何通过硬件实现的H.264视频编解码器和预训练的图像/视频理解模型，提高视频处理的效率和质量。

🌟 如果你觉得这篇文章对你有帮助，别忘了点赞、关注和收藏哦！ 🌟

👍 点赞：你的点赞是我继续创作的动力，让我知道你喜欢这样的内容！

👀 关注：关注我，获取更多关于人工智能、机器学习和前沿科技的深度解读和实用技巧。

📌 收藏：收藏这篇文章，方便你随时回顾和参考，也方便分享给你的朋友和同事。

感谢你的支持，我们一起探索科技的无限可能！🚀