NVIDIA SANA-WM：2.6B 开源世界模型，单卡 H100 生成 1 分钟 720p 视频

一、事件概述

2026 年 5 月 17 日，NVIDIA 正式开源了 SANA-WM （World Model），这是一个仅有 2.6B 参数的高效世界模型，能够将一张静态图片 + 相机轨迹转化为 长达 1 分钟、720p 分辨率、可控制视角 的高质量视频，仅需 单张 H100 GPU 即可推理。蒸馏版本甚至在 RTX 5090 上仅需 34 秒即可生成 60 秒 720p 视频。

该项目在 Hacker News 上获得 284 分，引发了 AI 社区对「世界模型」方向的新一轮关注。

二、什么是「世界模型」？

世界模型（World Model）是 AI 领域一个比大语言模型更激进的概念：它不满足于「理解文字」，而是要 在内部构建一个对物理世界运行规律的模拟器。

简单说：

大语言模型：学会的是「文字序列的统计规律」，输出文本
世界模型：学会的是「视觉世界的因果规律」，预测下一帧画面

SANA-WM 的独特之处在于，它不是传统的视频生成模型（如 Sora 或 Kling），而是 以世界建模为目标 的视频生成------模型必须理解物体怎么动、光影怎么变、相机移动时场景如何透视变化，才能生成连贯的分钟级视频。

三、SANA-WM 的核心技术架构

3.1 混合线性注意力（Hybrid Linear Attention）

这是 SANA-WM 最关键的创新。标准的 Diffusion Transformer（DiT）使用 Softmax Attention，其计算复杂度为 O(n²)，当生成 60 秒视频（约 1800 帧）时，显存直接爆炸。

SANA-WM 采用 帧级别的 Gated DeltaNet + 周期性 Softmax Attention 混合策略：

Gated DeltaNet：线性复杂度 O(n)，负责帧与帧之间的连续依赖
周期性 Softmax：每隔若干帧插入一次精准的 Softmax，保持长程一致性

这种设计使得模型在 60 秒生成长度下不会 OOM，而纯 Softmax 方案在 15 秒左右就已耗尽显存。

3.2 双分支相机控制（Dual-Branch Camera Control）

SANA-WM 支持 6-DoF（六自由度）相机轨迹控制，意味着你可以精确指定相机在三维空间中的位置、朝向、运动路径。具体分为两个分支：

粗粒度全局位姿分支：理解相机在场景中的大致路径
细粒度像素对齐几何分支：精确对齐到像素级别的几何变化

两者联合工作，使得生成的视频能精确跟随指定的相机运动轨迹。

3.3 两阶段生成流水线

Stage 1（长卷展骨干）：2.6B 基础模型生成 60 秒的原始视频
Stage 2（长视频精炼器）：17B 参数的专用精炼网络，在 Stage 1 输出基础上提升纹理、运动、后期窗口质量

这种两阶段设计借鉴了扩散模型中「先低分辨率去噪、再高分辨率精修」的思路，但 SANA-WM 是在时间维度上做精炼。

3.4 高效的标注管线

SANA-WM 仅使用了约 21.3 万条公开视频片段 （带度量级 6-DoF 相机位姿标注），在 64 张 H100 上训练 15 天 完成。这个数据量在今天的视频生成模型中可以说是相当「节俭」的。

四、性能表现

4.1 推理效率

指标	SANA-WM	对比基线（全 Softmax）
60s 单卡生成	✅ 单 H100	❌ OOM（显存溢出）
蒸馏版 + RTX 5090	34 秒	无法运行
训练资源	64 H100 × 15 天	通常 256+ H100
吞吐量提升	36× vs 开源基线	---

4.2 视觉质量

SANA-WM 在视觉质量上对标了 LingBot-World 和 HY-WorldPlay 等大规模工业基线，在 动作跟随准确率 上超过了所有现有的开源方案，视觉质量相当但吞吐量高出 36 倍。

4.3 典型应用场景

自动驾驶仿真：给定一张街景图和规划路径，生成连续的驾驶视角视频
机器人训练：为机器人提供视觉世界模拟环境
游戏内容生成：一键生成关卡全景漫游视频
影视预可视化：快速生成分镜脚本的视频预览

五、对开发者的启示

5.1 开源意味着可复现

SANA-WM 的代码已开源（GitHub），模型权重也即将发布。开发者可以直接在自己的 GPU 上部署：

bash 复制代码

# 环境要求
# - Python 3.10+
# - CUDA 12.1+
# - PyTorch 2.4+
# - NVIDIA H100 或 RTX 5090（蒸馏版）

git clone https://github.com/NVlabs/Sana-WM
cd Sana-WM
pip install -r requirements.txt

# 推理示例
python demo.py --image input.jpg --trajectory camera_path.json

5.2 线性注意力的工程价值

SANA-WM 证明了线性注意力（Linear Attention）在视频生成中的有效性。对于从事 AI 工程化的开发者来说，这意味着：

视频生成模型的部署门槛大幅降低
消费级显卡（RTX 5090）也能跑 1 分钟视频生成
为进一步扩展到更长视频（5 分钟、10 分钟）提供了架构基础

5.3 世界模型 vs 视频生成

SANA-WM 的「世界模型」定位有一个重要含义：它不仅仅是生成好看的视频，而是 对物理世界进行建模。这意味着：

生成的视频在物理上更合理（物体运动、光影变化、遮挡关系）
支持精确的相机控制（不只是文本 prompt）
可以与其他 AI 系统（如强化学习、机器人控制）集成

六、行业影响与展望

6.1 世界模型的竞赛升级

SANA-WM 的开源标志着世界模型从「实验室封闭研究」走向「社区可复现」的阶段。接下来我们可以期待：

更多团队基于 SANA-WM 架构做改进
数据量从 21 万扩展到百万级，质量进一步提升
蒸馏技术的进步让消费级显卡也能运行更高分辨率模型

6.2 对视频生成赛道的影响

当前视频生成领域分为两大阵营：

阵营	代表项目	特点
文本驱动	Sora、Kling、Pika	从文字生成视频，控制力弱
世界模型	SANA-WM、LingBot-World	从图像+轨迹生成，控制力强，物理合理性高

SANA-WM 的开源可能会加速「世界模型」路线的普及，尤其是在需要精确场景控制的专业领域。

6.3 应用场景展望

AI 电影制作：导演绘制关键帧 + 指定相机运动，AI 自动生成中间过渡镜头
游戏开发：AI 生成游戏内过场动画、环境漫游
建筑可视化：输入建筑效果图，AI 生成室内外漫游视频
教育和培训：生成模拟场景用于教学和实操训练

七、总结

NVIDIA SANA-WM 的发布是一个重要的里程碑。它以 2.6B 参数、64 张 H100 训练 15 天、单卡推理 的极致效率，证明了高效世界模型的可行性。混合线性注意力、双分支相机控制、两阶段生成管线等技术创新，为后续的发展指明了方向。

对于 AI 开发者和技术爱好者来说，现在正是动手尝试的最佳时机------代码已开源，模型即将发布，消费级显卡也能跑。

本文发布于 2026 年 5 月 17 日。参考来源：NVIDIA SANA-WM 官方页面（nvlabs.github.io/Sana/WM/）、Hacker News 热榜讨论。