一个模型干五件事:拆解 NVIDIA Cosmos 3 的物理 AI 全模态架构

上周二凌晨,我盯着 Jensen Huang 在 GTC Taipei 的 keynote 直播,看到他放出一张架构图的时候,差点以为自己在看科幻电影的概念设定。

一个模型,同时干五件事:看懂视频、生成世界、预测未来帧、学习人类动作、输出机器人关节角度。不是五个模型拼接------是一个。

| 这就是 NVIDIA Cosmos 3。{2026年5月31日 || 来源:NVIDIA GTC Taipei 官方公告} 在 Computex 期间发布,号称全球首个开源 Physical AI 全模态模型(omnimodel)。权重当天上了 Hugging Face,许可证用的 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。 |

说实话,"全模态"这种词我见过太多次了------GPT-4o 说过,Gemini 说过,最后不外乎是多加几个 encoder 然后说"我们统一了"。但 Cosmos 3 不一样的地方在于:它的全模态是奔着物理世界去的,不是奔着聊天去的。

这篇文章把 Cosmos 3 的架构拆清楚,给你一个判断:它到底是个营销噱头,还是真的能改变机器人和自动驾驶的开发方式。

为什么需要"一个模型干所有事"?

在 Cosmos 3 之前,搞 Physical AI 的团队(机器人、自动驾驶、工业检测)基本上在搭积木:

  1. 先用一个视觉模型"看"场景(感知)
  2. 把结果喂给一个世界模型"想象"未来(模拟)
  3. 再把模拟结果喂给策略模型"决定"怎么动(决策)
  4. 最后输出动作指令

四个模型,三个接口,每个接口都是潜在的错误源。延迟叠加、信息在传递过程中失真、debug 时你根本不知道是哪个模型的锅。

用 NVIDIA 自己的话说:

"A single model that handles all of those tasks does more than improve any one score: it removes inference steps, cuts handoff latency, and simplifies the MLOps stack."

翻译成人话:少折腾 pipeline,多干活。

这其实是个很实际的工程问题。我之前帮一个做仓储机器人的团队调过 pipeline------光是把感知模型的输出格式转成世界模型能吃的输入格式,就写了 200 多行胶水代码。每次上游模型升级,胶水就得重写。如果 Cosmos 3 真能把这些全塞进一个模型,光运维成本就能砍一大截。

双塔架构:Reasoner + Generator

Cosmos 3 的核心设计是一个 Mixture-of-Transformers(MoT)双塔结构

Reasoner Tower(推理塔)

  • 本质是一个自回归视觉语言模型
  • 负责"看懂"当前场景 + 理解指令
  • 输出结构化的上下文信息,告诉 Generator 该干什么
  • 可以理解为"想好了再动手"里的"想好"部分

Generator Tower(生成塔)

  • 本质是一个 Diffusion Transformer
  • 负责"动手"------生成视频帧、世界场景、动作轨迹
  • 不能独立运行,必须依赖 Reasoner 提供的上下文条件

两个塔共享一个关键设计:3D 多维旋转位置编码(mRoPE)。这个东西让模型在处理不同模态时,能保持一致的时空结构------视频的第 3 帧和机器人的第 3 步,在模型眼里是同一个"位置"。

复制代码
graph TD
    Input[多模态输入: 文本/图像/视频/动作] --> Encoder
    Encoder[模态编码器<br/>ViT + VAE + 动作向量] --> Shared[共享表征空间]
    Shared --> Reasoner[Reasoner Tower<br/>自回归推理]
    Reasoner --> Context[结构化上下文]
    Context --> Generator[Generator Tower<br/>Diffusion 生成]
    Generator --> Output[输出: 视频/文本/动作]

| Reasoner -.->|mRoPE 时空同步| Generator |

    style Reasoner fill:#dbeafe
    style Generator fill:#fef3c7
    style Shared fill:#d1fae5

为什么这个设计有意思?因为传统的 VLM(视觉语言模型)和视频生成模型是完全不同的技术路线------一个是 next-token prediction,一个是 iterative denoising。NVIDIA 把它们塞进了同一个架构里,通过 联合注意力(joint attention) 让两个参数集互相通信。

打个比方:这就像一个人左脑负责分析路况,右脑负责画路线图,但两个半脑实时共享信息------而不是像以前那样,左脑分析完写张纸条递给右脑,右脑读完再画。

五种模式,同一套权重

这是我觉得 Cosmos 3 最精巧的设计。同一份模型权重,通过不同的输入输出配置,可以当五种不同的模型用:

模式 输入 → 输出 典型场景
VLM 推理 文本 + 视频 → 文本 仓储机器人回答"架子上有什么"
世界生成 文本/图像/视频 → 视频 生成自动驾驶长尾场景训练数据
正向动力学 动作 + 图像 → 未来视频 机器人"想象"抓取结果再决定是否执行
逆向动力学 视频 → 动作 从人类演示视频中自动提取动作标签
策略模型 图像 + 文本 → 视频 + 动作 完整的机器人控制循环

你发现了吗?最后一个模式------策略模型------就是一个完整的"感知→决策→执行"闭环。以前需要 3-4 个模型协同完成的事情,现在一个 forward pass 搞定。

说到正向动力学模式,我觉得这个最有意思。传统机器人开发中,你只能让机器人去试------试了才知道能不能抓起来。但有了正向动力学模式,机器人可以先在"脑中"模拟一遍抓取过程,如果模拟结果显示抓取失败,就不浪费时间去真的执行了。这对减少物理磨损和提升效率的意义太大了。

三个硬件层级

NVIDIA 这次很实在,直接告诉你不同模型大小对应什么硬件:

级别 参数量 目标硬件 状态
Super 64B(32B + 32B) Hopper / Blackwell 数据中心 GPU 已发布,Hugging Face 可下载
Nano 16B(8B + 8B) RTX PRO 6000 工作站 已发布,支持 build.nvidia.com 免 GPU 试用
Edge 4B Jetson 边缘设备 即将发布(没有具体日期)

注意:Super 和 Nano 的参数量都是"双份"------因为 Reasoner 和 Generator 各占一半。所以 Super 是 32B 推理 + 32B 生成,总共 64B。

一个实际的建议:现阶段别等 Edge。用 Nano 做原型验证,确认可行了再考虑 Edge 是否能满足性能需求。NVIDIA 没有给出 Edge 的发布时间,按照以往经验,"即将发布"可能是三个月也可能是六个月。

对了,如果你没有工作站级 GPU,可以直接去 build.nvidia.com 试 Nano 版------不用 GPU,浏览器里就能跑。

上手试一下:代码示例

以下是一个用 Cosmos 3 Nano 生成文本到图像的示例,基于 Hugging Face Diffusers 库。你需要至少一张 RTX PRO 6000 或同等显存的 GPU:

复制代码
import torch
from diffusers import Cosmos3OmniPipeline

# 加载模型
pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

# 生成一张机器人实验室的场景图
prompt = (
    "A medium shot of a modern robotics research laboratory with white walls "
    "and a gray floor. A robotic arm with a metallic finish is mounted on a "
    "clean white workbench, its gripper positioned above a row of small colored "
    "objects. A laptop and neatly arranged tools sit beside the robot. The scene "
    "is brightly lit by overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_lab_scene.jpg", format="JPEG", quality=85)
print("Image saved to cosmos3_lab_scene.jpg")

这段代码看着简单,但背后发生的事情相当复杂:Reasoner 先理解你的文字描述,生成结构化的场景表征,然后 Generator 基于这个表征去 denoise 出一张图。整个过程在一个 pipeline 里完成。

如果你想做视频生成,把 num_frames 改成大于 1 的值就行(比如 121 帧约等于 5 秒的 24fps 视频)。不过视频生成对显存的要求会陡增------Nano 可能需要 24GB+ 显存才能跑起来。

开源许可证:OpenMDW-1.1

| NVIDIA 这次用的不是自己的 NV License,而是 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。这个许可证比 NV License 友好得多: |

  • ✅ 允许商业使用
  • ✅ 允许修改和微调
  • ✅ 允许分发和创建衍生模型
  • ✅ NVIDIA 不主张对模型输出的所有权
  • ⚠️ 唯一限制:产品中需要显示"Built on NVIDIA Cosmos"标识

这个"唯一限制"在实操中意味着什么?你的产品网页、关于页面、文档中的某个地方写上这行字就行。不算过分,但确实是个绑定------用了它的模型,就等于在帮 NVIDIA 打广告。

不过话说回来,比起 Llama 的社区许可证或者 Gemini CLI 的"说停就停",OpenMDW-1.1 已经算相当开放了。至少 Nvidia 没有保留"我随时可以不让你用"的权力。

踩坑和注意事项

研究了两天,列几个我觉得值得注意的点:

1. 基准测试数据要审慎看待

NVIDIA 声称在 Physical AI 排行榜上排名第一(在开源模型中)。但发布时没有提供具体的分数对比表,也没有第三方独立验证。Digital Applied 的评价很中肯:

"The right move is the same one we recommend for any new model --- run the eval on your own scenes and tasks, not on the press release."

2. 边缘部署还早

Edge 版(4B)没有发布日期。如果你做的是需要在机器人本体上实时推理的场景,目前只能用 Nano 在工作站上验证,然后等 Edge。

3. Super 版对硬件要求很高

64B 参数意味着你需要至少 128GB 显存才能在 BF16 下跑起来。Hopper(H100/H200)或 Blackwell(B200)级别的数据中心 GPU。不是个人开发者能玩得起的。

4. Diffusers 集成还比较新

Cosmos3OmniPipeline 是刚加入 Diffusers 的,文档和社区经验都还不多。遇到 bug 的概率不低,建议先在 GitHub issue 里搜一圈再动手。

和现有方案对比

对比维度 Cosmos 3 旧方案(多模型拼接) 纯 LLM 方案(GPT-4o 等)
物理推理能力 专门训练,原生支持 各模型各管各 无专门训练
机器人动作输出 原生支持关节角度/轨迹 需要单独策略模型 不支持
Pipeline 延迟 单次 forward pass 多模型串联,延迟叠加 N/A
部署复杂度 一个模型 3-4 个模型 + 胶水代码 API 调用
开源程度 OpenMDW-1.1,权重开放 取决于各组件 不开源
硬件门槛 高(需要专业 GPU) 分散但总量不低 无(云 API)
适用领域 机器人/自动驾驶/工业 各领域皆可 通用场景

说白了,Cosmos 3 不是拿来聊天或写代码的。它的定位非常明确------Physical AI,也就是需要在真实物理世界里感知和行动的系统。如果你不做机器人、不做自动驾驶、不做工业视觉,这个模型跟你关系不大。

总结与看法

Cosmos 3 做了一件非常"NVIDIA"的事:用一个统一架构,把之前散落在 Cosmos Predict、Transfer、Reason、Policy 四个产品里的能力全合并了。好处是开发者不用再纠结"我该用哪个 Cosmos 子产品"------现在就一个入口。

双塔 MoT 架构的设计挺巧妙的,Reasoner "想"完再让 Generator "做",符合直觉。五种模式共用一套权重,减少了部署和维护的负担。OpenMDW-1.1 许可证也算是 NVIDIA 在开放性上迈出的一步。

但我也得泼点冷水:

  • 基准测试缺独立验证------NVIDIA 自己说的"第一",先打个问号
  • Edge 版遥遥无期------大部分机器人场景需要端侧推理,但现在只能等
  • 硬件门槛不低------连 Nano 都要工作站级 GPU,个人开发者上手成本高
  • 生态还很早期------Diffusers 集成刚上线,社区经验少,踩坑会多

你怎么看?如果你在做机器人或自动驾驶,你会考虑用 Cosmos 3 替换现有的多模型 pipeline 吗?还是说你觉得当前的拼装方案已经够用了?评论区聊聊。

相关推荐
易舟云财务软件1 小时前
财务 AI Python 实战:从自动化报表到智能风控的应用场景
人工智能·python·自动化
Mr.Daozhi1 小时前
跨境电商选品完整流水线:Google Trends筛词+Meta广告分析,CLI工具设计实战
开发语言·爬虫·python·跨境电商·工具链·选品
AIkk861 小时前
班级群学习资料分享指南:工具推荐与实践
大数据·人工智能·html
兆。1 小时前
简历高光_Agent_RAG项目描述
人工智能·langchain
Upsy-Daisy1 小时前
Hermes Agent 学习笔记 01:一个会记忆、会学习、能长期运行的 AI Agent
人工智能·笔记·学习
小雨下雨的雨1 小时前
五子棋AI在鸿蒙PC Electron上的实现的原理与实践
人工智能·游戏·华为·electron·harmonyos·鸿蒙
AI科技星1 小时前
基于奇合数边界的离散解析数论与双螺旋宇大统一体系(中英文双语纯净终稿)
人工智能·线性代数·架构·概率论·学习方法
Swift社区1 小时前
异构协同,算力重构:CPU+GPU架构下的AI推理优化
人工智能·重构·架构
调试优选官1 小时前
2026上海AI搜索GEO排名优化:技术路径与服务能力解析
人工智能·ai·geo·上海