一个模型干五件事：拆解 NVIDIA Cosmos 3 的物理 AI 全模态架构

上周二凌晨，我盯着 Jensen Huang 在 GTC Taipei 的 keynote 直播，看到他放出一张架构图的时候，差点以为自己在看科幻电影的概念设定。

一个模型，同时干五件事：看懂视频、生成世界、预测未来帧、学习人类动作、输出机器人关节角度。不是五个模型拼接------是一个。

| 这就是 NVIDIA Cosmos 3。{2026年5月31日 || 来源:NVIDIA GTC Taipei 官方公告} 在 Computex 期间发布，号称全球首个开源 Physical AI 全模态模型（omnimodel）。权重当天上了 Hugging Face，许可证用的 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。 |

说实话，"全模态"这种词我见过太多次了------GPT-4o 说过，Gemini 说过，最后不外乎是多加几个 encoder 然后说"我们统一了"。但 Cosmos 3 不一样的地方在于：它的全模态是奔着物理世界去的，不是奔着聊天去的。

这篇文章把 Cosmos 3 的架构拆清楚，给你一个判断：它到底是个营销噱头，还是真的能改变机器人和自动驾驶的开发方式。

为什么需要"一个模型干所有事"？

在 Cosmos 3 之前，搞 Physical AI 的团队（机器人、自动驾驶、工业检测）基本上在搭积木：

先用一个视觉模型"看"场景（感知）
把结果喂给一个世界模型"想象"未来（模拟）
再把模拟结果喂给策略模型"决定"怎么动（决策）
最后输出动作指令

四个模型，三个接口，每个接口都是潜在的错误源。延迟叠加、信息在传递过程中失真、debug 时你根本不知道是哪个模型的锅。

用 NVIDIA 自己的话说：

"A single model that handles all of those tasks does more than improve any one score: it removes inference steps, cuts handoff latency, and simplifies the MLOps stack."

翻译成人话：少折腾 pipeline，多干活。

这其实是个很实际的工程问题。我之前帮一个做仓储机器人的团队调过 pipeline------光是把感知模型的输出格式转成世界模型能吃的输入格式，就写了 200 多行胶水代码。每次上游模型升级，胶水就得重写。如果 Cosmos 3 真能把这些全塞进一个模型，光运维成本就能砍一大截。

双塔架构：Reasoner + Generator

Cosmos 3 的核心设计是一个 Mixture-of-Transformers（MoT）双塔结构。

Reasoner Tower（推理塔）

本质是一个自回归视觉语言模型
负责"看懂"当前场景 + 理解指令
输出结构化的上下文信息，告诉 Generator 该干什么
可以理解为"想好了再动手"里的"想好"部分

Generator Tower（生成塔）

本质是一个 Diffusion Transformer
负责"动手"------生成视频帧、世界场景、动作轨迹
不能独立运行，必须依赖 Reasoner 提供的上下文条件

两个塔共享一个关键设计：3D 多维旋转位置编码（mRoPE）。这个东西让模型在处理不同模态时，能保持一致的时空结构------视频的第 3 帧和机器人的第 3 步，在模型眼里是同一个"位置"。

复制代码

graph TD
    Input[多模态输入: 文本/图像/视频/动作] --> Encoder
    Encoder[模态编码器<br/>ViT + VAE + 动作向量] --> Shared[共享表征空间]
    Shared --> Reasoner[Reasoner Tower<br/>自回归推理]
    Reasoner --> Context[结构化上下文]
    Context --> Generator[Generator Tower<br/>Diffusion 生成]
    Generator --> Output[输出: 视频/文本/动作]

| Reasoner -.->|mRoPE 时空同步| Generator |

    style Reasoner fill:#dbeafe
    style Generator fill:#fef3c7
    style Shared fill:#d1fae5

为什么这个设计有意思？因为传统的 VLM（视觉语言模型）和视频生成模型是完全不同的技术路线------一个是 next-token prediction，一个是 iterative denoising。NVIDIA 把它们塞进了同一个架构里，通过 联合注意力（joint attention） 让两个参数集互相通信。

打个比方：这就像一个人左脑负责分析路况，右脑负责画路线图，但两个半脑实时共享信息------而不是像以前那样，左脑分析完写张纸条递给右脑，右脑读完再画。

五种模式，同一套权重

这是我觉得 Cosmos 3 最精巧的设计。同一份模型权重，通过不同的输入输出配置，可以当五种不同的模型用：

模式	输入 → 输出	典型场景
VLM 推理	文本 + 视频 → 文本	仓储机器人回答"架子上有什么"
世界生成	文本/图像/视频 → 视频	生成自动驾驶长尾场景训练数据
正向动力学	动作 + 图像 → 未来视频	机器人"想象"抓取结果再决定是否执行
逆向动力学	视频 → 动作	从人类演示视频中自动提取动作标签
策略模型	图像 + 文本 → 视频 + 动作	完整的机器人控制循环

你发现了吗？最后一个模式------策略模型------就是一个完整的"感知→决策→执行"闭环。以前需要 3-4 个模型协同完成的事情，现在一个 forward pass 搞定。

说到正向动力学模式，我觉得这个最有意思。传统机器人开发中，你只能让机器人去试------试了才知道能不能抓起来。但有了正向动力学模式，机器人可以先在"脑中"模拟一遍抓取过程，如果模拟结果显示抓取失败，就不浪费时间去真的执行了。这对减少物理磨损和提升效率的意义太大了。

三个硬件层级

NVIDIA 这次很实在，直接告诉你不同模型大小对应什么硬件：

级别	参数量	目标硬件	状态
Super	64B（32B + 32B）	Hopper / Blackwell 数据中心 GPU	已发布，Hugging Face 可下载
Nano	16B（8B + 8B）	RTX PRO 6000 工作站	已发布，支持 build.nvidia.com 免 GPU 试用
Edge	4B	Jetson 边缘设备	即将发布（没有具体日期）

注意：Super 和 Nano 的参数量都是"双份"------因为 Reasoner 和 Generator 各占一半。所以 Super 是 32B 推理 + 32B 生成，总共 64B。

一个实际的建议：现阶段别等 Edge。用 Nano 做原型验证，确认可行了再考虑 Edge 是否能满足性能需求。NVIDIA 没有给出 Edge 的发布时间，按照以往经验，"即将发布"可能是三个月也可能是六个月。

对了，如果你没有工作站级 GPU，可以直接去 build.nvidia.com 试 Nano 版------不用 GPU，浏览器里就能跑。

上手试一下：代码示例

以下是一个用 Cosmos 3 Nano 生成文本到图像的示例，基于 Hugging Face Diffusers 库。你需要至少一张 RTX PRO 6000 或同等显存的 GPU：

复制代码

import torch
from diffusers import Cosmos3OmniPipeline

# 加载模型
pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

# 生成一张机器人实验室的场景图
prompt = (
    "A medium shot of a modern robotics research laboratory with white walls "
    "and a gray floor. A robotic arm with a metallic finish is mounted on a "
    "clean white workbench, its gripper positioned above a row of small colored "
    "objects. A laptop and neatly arranged tools sit beside the robot. The scene "
    "is brightly lit by overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_lab_scene.jpg", format="JPEG", quality=85)
print("Image saved to cosmos3_lab_scene.jpg")

这段代码看着简单，但背后发生的事情相当复杂：Reasoner 先理解你的文字描述，生成结构化的场景表征，然后 Generator 基于这个表征去 denoise 出一张图。整个过程在一个 pipeline 里完成。

如果你想做视频生成，把 num_frames 改成大于 1 的值就行（比如 121 帧约等于 5 秒的 24fps 视频）。不过视频生成对显存的要求会陡增------Nano 可能需要 24GB+ 显存才能跑起来。

开源许可证：OpenMDW-1.1

| NVIDIA 这次用的不是自己的 NV License，而是 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。这个许可证比 NV License 友好得多： |

✅ 允许商业使用
✅ 允许修改和微调
✅ 允许分发和创建衍生模型
✅ NVIDIA 不主张对模型输出的所有权
⚠️ 唯一限制：产品中需要显示"Built on NVIDIA Cosmos"标识

这个"唯一限制"在实操中意味着什么？你的产品网页、关于页面、文档中的某个地方写上这行字就行。不算过分，但确实是个绑定------用了它的模型，就等于在帮 NVIDIA 打广告。

不过话说回来，比起 Llama 的社区许可证或者 Gemini CLI 的"说停就停"，OpenMDW-1.1 已经算相当开放了。至少 Nvidia 没有保留"我随时可以不让你用"的权力。

踩坑和注意事项

研究了两天，列几个我觉得值得注意的点：

1. 基准测试数据要审慎看待

NVIDIA 声称在 Physical AI 排行榜上排名第一（在开源模型中）。但发布时没有提供具体的分数对比表，也没有第三方独立验证。Digital Applied 的评价很中肯：

"The right move is the same one we recommend for any new model --- run the eval on your own scenes and tasks, not on the press release."

2. 边缘部署还早

Edge 版（4B）没有发布日期。如果你做的是需要在机器人本体上实时推理的场景，目前只能用 Nano 在工作站上验证，然后等 Edge。

3. Super 版对硬件要求很高

64B 参数意味着你需要至少 128GB 显存才能在 BF16 下跑起来。Hopper（H100/H200）或 Blackwell（B200）级别的数据中心 GPU。不是个人开发者能玩得起的。

4. Diffusers 集成还比较新

Cosmos3OmniPipeline 是刚加入 Diffusers 的，文档和社区经验都还不多。遇到 bug 的概率不低，建议先在 GitHub issue 里搜一圈再动手。

和现有方案对比

对比维度	Cosmos 3	旧方案（多模型拼接）	纯 LLM 方案（GPT-4o 等）
物理推理能力	专门训练，原生支持	各模型各管各	无专门训练
机器人动作输出	原生支持关节角度/轨迹	需要单独策略模型	不支持
Pipeline 延迟	单次 forward pass	多模型串联，延迟叠加	N/A
部署复杂度	一个模型	3-4 个模型 + 胶水代码	API 调用
开源程度	OpenMDW-1.1，权重开放	取决于各组件	不开源
硬件门槛	高（需要专业 GPU）	分散但总量不低	无（云 API）
适用领域	机器人/自动驾驶/工业	各领域皆可	通用场景

说白了，Cosmos 3 不是拿来聊天或写代码的。它的定位非常明确------Physical AI，也就是需要在真实物理世界里感知和行动的系统。如果你不做机器人、不做自动驾驶、不做工业视觉，这个模型跟你关系不大。

总结与看法

Cosmos 3 做了一件非常"NVIDIA"的事：用一个统一架构，把之前散落在 Cosmos Predict、Transfer、Reason、Policy 四个产品里的能力全合并了。好处是开发者不用再纠结"我该用哪个 Cosmos 子产品"------现在就一个入口。

双塔 MoT 架构的设计挺巧妙的，Reasoner "想"完再让 Generator "做"，符合直觉。五种模式共用一套权重，减少了部署和维护的负担。OpenMDW-1.1 许可证也算是 NVIDIA 在开放性上迈出的一步。

但我也得泼点冷水：

基准测试缺独立验证------NVIDIA 自己说的"第一"，先打个问号
Edge 版遥遥无期------大部分机器人场景需要端侧推理，但现在只能等
硬件门槛不低------连 Nano 都要工作站级 GPU，个人开发者上手成本高
生态还很早期------Diffusers 集成刚上线，社区经验少，踩坑会多

你怎么看？如果你在做机器人或自动驾驶，你会考虑用 Cosmos 3 替换现有的多模型 pipeline 吗？还是说你觉得当前的拼装方案已经够用了？评论区聊聊。