NVIDIA SANA-WM:2.6B 开源世界模型,单卡 H100 生成 1 分钟 720p 视频
一、事件概述
2026 年 5 月 17 日,NVIDIA 正式开源了 SANA-WM (World Model),这是一个仅有 2.6B 参数的高效世界模型,能够将一张静态图片 + 相机轨迹转化为 长达 1 分钟、720p 分辨率、可控制视角 的高质量视频,仅需 单张 H100 GPU 即可推理。蒸馏版本甚至在 RTX 5090 上仅需 34 秒即可生成 60 秒 720p 视频。
该项目在 Hacker News 上获得 284 分,引发了 AI 社区对「世界模型」方向的新一轮关注。
二、什么是「世界模型」?
世界模型(World Model)是 AI 领域一个比大语言模型更激进的概念:它不满足于「理解文字」,而是要 在内部构建一个对物理世界运行规律的模拟器。
简单说:
- 大语言模型:学会的是「文字序列的统计规律」,输出文本
- 世界模型:学会的是「视觉世界的因果规律」,预测下一帧画面
SANA-WM 的独特之处在于,它不是传统的视频生成模型(如 Sora 或 Kling),而是 以世界建模为目标 的视频生成------模型必须理解物体怎么动、光影怎么变、相机移动时场景如何透视变化,才能生成连贯的分钟级视频。
三、SANA-WM 的核心技术架构
3.1 混合线性注意力(Hybrid Linear Attention)
这是 SANA-WM 最关键的创新。标准的 Diffusion Transformer(DiT)使用 Softmax Attention,其计算复杂度为 O(n²),当生成 60 秒视频(约 1800 帧)时,显存直接爆炸。
SANA-WM 采用 帧级别的 Gated DeltaNet + 周期性 Softmax Attention 混合策略:
- Gated DeltaNet:线性复杂度 O(n),负责帧与帧之间的连续依赖
- 周期性 Softmax:每隔若干帧插入一次精准的 Softmax,保持长程一致性
这种设计使得模型在 60 秒生成长度下不会 OOM,而纯 Softmax 方案在 15 秒左右就已耗尽显存。
3.2 双分支相机控制(Dual-Branch Camera Control)
SANA-WM 支持 6-DoF(六自由度)相机轨迹控制,意味着你可以精确指定相机在三维空间中的位置、朝向、运动路径。具体分为两个分支:
- 粗粒度全局位姿分支:理解相机在场景中的大致路径
- 细粒度像素对齐几何分支:精确对齐到像素级别的几何变化
两者联合工作,使得生成的视频能精确跟随指定的相机运动轨迹。
3.3 两阶段生成流水线
- Stage 1(长卷展骨干):2.6B 基础模型生成 60 秒的原始视频
- Stage 2(长视频精炼器):17B 参数的专用精炼网络,在 Stage 1 输出基础上提升纹理、运动、后期窗口质量
这种两阶段设计借鉴了扩散模型中「先低分辨率去噪、再高分辨率精修」的思路,但 SANA-WM 是在时间维度上做精炼。
3.4 高效的标注管线
SANA-WM 仅使用了约 21.3 万条公开视频片段 (带度量级 6-DoF 相机位姿标注),在 64 张 H100 上训练 15 天 完成。这个数据量在今天的视频生成模型中可以说是相当「节俭」的。
四、性能表现
4.1 推理效率
| 指标 | SANA-WM | 对比基线(全 Softmax) |
|---|---|---|
| 60s 单卡生成 | ✅ 单 H100 | ❌ OOM(显存溢出) |
| 蒸馏版 + RTX 5090 | 34 秒 | 无法运行 |
| 训练资源 | 64 H100 × 15 天 | 通常 256+ H100 |
| 吞吐量提升 | 36× vs 开源基线 | --- |
4.2 视觉质量
SANA-WM 在视觉质量上对标了 LingBot-World 和 HY-WorldPlay 等大规模工业基线,在 动作跟随准确率 上超过了所有现有的开源方案,视觉质量相当但吞吐量高出 36 倍。
4.3 典型应用场景
- 自动驾驶仿真:给定一张街景图和规划路径,生成连续的驾驶视角视频
- 机器人训练:为机器人提供视觉世界模拟环境
- 游戏内容生成:一键生成关卡全景漫游视频
- 影视预可视化:快速生成分镜脚本的视频预览
五、对开发者的启示
5.1 开源意味着可复现
SANA-WM 的代码已开源(GitHub),模型权重也即将发布。开发者可以直接在自己的 GPU 上部署:
bash
# 环境要求
# - Python 3.10+
# - CUDA 12.1+
# - PyTorch 2.4+
# - NVIDIA H100 或 RTX 5090(蒸馏版)
git clone https://github.com/NVlabs/Sana-WM
cd Sana-WM
pip install -r requirements.txt
# 推理示例
python demo.py --image input.jpg --trajectory camera_path.json
5.2 线性注意力的工程价值
SANA-WM 证明了线性注意力(Linear Attention)在视频生成中的有效性。对于从事 AI 工程化的开发者来说,这意味着:
- 视频生成模型的部署门槛大幅降低
- 消费级显卡(RTX 5090)也能跑 1 分钟视频生成
- 为进一步扩展到更长视频(5 分钟、10 分钟)提供了架构基础
5.3 世界模型 vs 视频生成
SANA-WM 的「世界模型」定位有一个重要含义:它不仅仅是生成好看的视频,而是 对物理世界进行建模。这意味着:
- 生成的视频在物理上更合理(物体运动、光影变化、遮挡关系)
- 支持精确的相机控制(不只是文本 prompt)
- 可以与其他 AI 系统(如强化学习、机器人控制)集成
六、行业影响与展望
6.1 世界模型的竞赛升级
SANA-WM 的开源标志着世界模型从「实验室封闭研究」走向「社区可复现」的阶段。接下来我们可以期待:
- 更多团队基于 SANA-WM 架构做改进
- 数据量从 21 万扩展到百万级,质量进一步提升
- 蒸馏技术的进步让消费级显卡也能运行更高分辨率模型
6.2 对视频生成赛道的影响
当前视频生成领域分为两大阵营:
| 阵营 | 代表项目 | 特点 |
|---|---|---|
| 文本驱动 | Sora、Kling、Pika | 从文字生成视频,控制力弱 |
| 世界模型 | SANA-WM、LingBot-World | 从图像+轨迹生成,控制力强,物理合理性高 |
SANA-WM 的开源可能会加速「世界模型」路线的普及,尤其是在需要精确场景控制的专业领域。
6.3 应用场景展望
- AI 电影制作:导演绘制关键帧 + 指定相机运动,AI 自动生成中间过渡镜头
- 游戏开发:AI 生成游戏内过场动画、环境漫游
- 建筑可视化:输入建筑效果图,AI 生成室内外漫游视频
- 教育和培训:生成模拟场景用于教学和实操训练
七、总结
NVIDIA SANA-WM 的发布是一个重要的里程碑。它以 2.6B 参数、64 张 H100 训练 15 天、单卡推理 的极致效率,证明了高效世界模型的可行性。混合线性注意力、双分支相机控制、两阶段生成管线等技术创新,为后续的发展指明了方向。
对于 AI 开发者和技术爱好者来说,现在正是动手尝试的最佳时机------代码已开源,模型即将发布,消费级显卡也能跑。
本文发布于 2026 年 5 月 17 日。参考来源:NVIDIA SANA-WM 官方页面(nvlabs.github.io/Sana/WM/)、Hacker News 热榜讨论。