
模型概述
描述:
NitroGen是一个统一的视觉到动作模型,设计用于直接从原始画面玩电子游戏。它以游戏视频画面作为输入,输出游戏手柄动作。与通过奖励或任务目标训练的模型不同,NitroGen纯粹通过大规模模仿学习人类游戏视频进行训练。该模型最适合为手柄控制设计的游戏(如动作、平台和竞速类游戏),而对重度依赖键鼠操作的游戏(如RTS、MOBA)效果较差。
NitroGen项目的目标是探索:对人类多样化游戏行为的大规模训练是否能产生新兴的通用具身智能能力,类似于规模扩展在大型语言模型中激发出的涌现行为。
潜在应用包括新一代游戏AI、电子游戏自动化测试,以及推动通用具身AI研究。
NitroGen 1由NVIDIA开发,是该系列首个模型。本模型仅用于研发用途。
许可/使用条款:
管辖条款:NVIDIA许可协议
附加信息:Apache许可证适用于https://huggingface.co/google/siglip2-base-patch16-224
部署地域:
全球范围
使用场景:
研究人员、工程师、开源社区、企业、游戏玩家。潜在应用包括新一代游戏AI、电子游戏自动化测试,以及推动具身AI研究。
发布日期:
GitHub 2025/12/19通过<>
GitHub 2025/12/19通过https://huggingface.co/nvidia/NitroGen
参考文献:
VPT:基于网络视频训练的《我的世界》智能体
SIMA:可遵循文本指令的多游戏通用智能体
GR00T N1:通用人形机器人开源基础模型
模型架构:
架构类型: 视觉变换器、扩散变换器
网络架构:
- RGB帧通过预训练视觉变换器(SigLip2)处理
- 扩散匹配变换器(DiT)基于SigLip输出生成动作
本模型基于 SigLip2开发
模型参数量: 4.93×10⁸
输入:
输入类型: 图像
输入格式: 红绿蓝(RGB)
输入参数: 二维(2D)
其他输入属性: 256×256分辨率图像
输出
输出类型: 游戏手柄/控制器动作
输出格式: 表格形式
输出参数: 二维:一个动作维度加一个时间维度
其他输出属性: 输出形状为21×16,包含每个摇杆的2个二维连续值向量,以及17个按钮的二进制值
我们的AI模型专为NVIDIA GPU加速系统设计和/或优化。通过利用NVIDIA硬件(如GPU核心)和软件框架(如CUDA库),相比纯CPU方案可实现更快的训练和推理速度。
软件集成:
运行时引擎:
未使用运行时引擎
支持的硬件微架构兼容性:
- NVIDIA Blackwell架构
- NVIDIA Hopper架构
推荐/支持的操作系统:
将基础模型和微调模型集成到AI系统时,需使用特定场景数据进行额外测试,确保安全有效部署。遵循V模型方法论,在部署前进行单元级和系统级的迭代测试验证,对降低风险、满足技术功能要求、确保符合安全伦理标准至关重要。
- Linux系统
- Windows系统
模型版本:
V1
训练、测试与评估数据集:
训练数据集:
数据类型
- 图像
- 视频
图像训练数据量
- 超过10亿张图像
视频训练数据量
- 1万至100万小时
各数据集采集方式
- 自动化采集
各数据集标注方式
- 合成标注
属性: 4万段公开视频,逐帧动作标注
测试数据集:
各数据集采集方式
- 自动化采集
各数据集标注方式
- 合成标注
属性: 4万段公开视频,逐帧动作标注
评估数据集:
各数据集采集方式
- 自动化采集
各数据集标注方式
- 合成标注
属性: 4万段公开视频,逐帧动作标注