英伟达开源会打游戏的Agent模型,模仿学习人类游戏视频进行训练

模型概述

描述:

NitroGen是一个统一的视觉到动作模型,设计用于直接从原始画面玩电子游戏。它以游戏视频画面作为输入,输出游戏手柄动作。与通过奖励或任务目标训练的模型不同,NitroGen纯粹通过大规模模仿学习人类游戏视频进行训练。该模型最适合为手柄控制设计的游戏(如动作、平台和竞速类游戏),而对重度依赖键鼠操作的游戏(如RTS、MOBA)效果较差。

NitroGen项目的目标是探索:对人类多样化游戏行为的大规模训练是否能产生新兴的通用具身智能能力,类似于规模扩展在大型语言模型中激发出的涌现行为。

潜在应用包括新一代游戏AI、电子游戏自动化测试,以及推动通用具身AI研究。

NitroGen 1由NVIDIA开发,是该系列首个模型。本模型仅用于研发用途。

许可/使用条款:

管辖条款:NVIDIA许可协议

附加信息:Apache许可证适用于https://huggingface.co/google/siglip2-base-patch16-224

部署地域:

全球范围

使用场景:

研究人员、工程师、开源社区、企业、游戏玩家。潜在应用包括新一代游戏AI、电子游戏自动化测试,以及推动具身AI研究。

发布日期:

GitHub 2025/12/19通过<>

GitHub 2025/12/19通过https://huggingface.co/nvidia/NitroGen

参考文献:

VPT:基于网络视频训练的《我的世界》智能体
SIMA:可遵循文本指令的多游戏通用智能体
GR00T N1:通用人形机器人开源基础模型

模型架构:

架构类型: 视觉变换器、扩散变换器

网络架构:

  • RGB帧通过预训练视觉变换器(SigLip2)处理
  • 扩散匹配变换器(DiT)基于SigLip输出生成动作

本模型基于 SigLip2开发

模型参数量: 4.93×10⁸

输入:

输入类型: 图像

输入格式: 红绿蓝(RGB)

输入参数: 二维(2D)

其他输入属性: 256×256分辨率图像

输出

输出类型: 游戏手柄/控制器动作

输出格式: 表格形式

输出参数: 二维:一个动作维度加一个时间维度

其他输出属性: 输出形状为21×16,包含每个摇杆的2个二维连续值向量,以及17个按钮的二进制值

我们的AI模型专为NVIDIA GPU加速系统设计和/或优化。通过利用NVIDIA硬件(如GPU核心)和软件框架(如CUDA库),相比纯CPU方案可实现更快的训练和推理速度。

软件集成:

运行时引擎:

未使用运行时引擎

支持的硬件微架构兼容性:

  • NVIDIA Blackwell架构
  • NVIDIA Hopper架构

推荐/支持的操作系统:

将基础模型和微调模型集成到AI系统时,需使用特定场景数据进行额外测试,确保安全有效部署。遵循V模型方法论,在部署前进行单元级和系统级的迭代测试验证,对降低风险、满足技术功能要求、确保符合安全伦理标准至关重要。

  • Linux系统
  • Windows系统

模型版本:

V1

训练、测试与评估数据集:

训练数据集:

数据类型

  • 图像
  • 视频

图像训练数据量

  • 超过10亿张图像

视频训练数据量

  • 1万至100万小时

各数据集采集方式

  • 自动化采集

各数据集标注方式

  • 合成标注

属性: 4万段公开视频,逐帧动作标注

测试数据集:

各数据集采集方式

  • 自动化采集

各数据集标注方式

  • 合成标注

属性: 4万段公开视频,逐帧动作标注

评估数据集:

各数据集采集方式

  • 自动化采集

各数据集标注方式

  • 合成标注

属性: 4万段公开视频,逐帧动作标注

官方:https://nitrogen.minedojo.org/

代码:https://github.com/MineDojo/NitroGen

相关推荐
num_killer1 小时前
小白的Langchain学习
java·python·学习·langchain
wdfk_prog1 小时前
[Linux]学习笔记系列 -- hashtable
linux·笔记·学习
2501_942326444 小时前
寒假高效记忆法助力学习飞跃
学习
计算机程序设计小李同学4 小时前
基于SSM框架的动画制作及分享网站设计
java·前端·后端·学习·ssm
深情的小陈同学4 小时前
工作学习笔记 —— 支持手机端的添加表单行操作
笔记·学习·ai编程
xiangshi_yan5 小时前
内核学习之路【4/100】-io
学习
am心5 小时前
学习笔记-小程序-导入商品浏览功能实现
笔记·学习
hkNaruto6 小时前
【AI】AI学习笔记:LangGraph入门 三大典型应用场景与代码示例及MCP、A2A与LangGraph核心对比
人工智能·笔记·学习
专注于大数据技术栈6 小时前
java学习--LinkedHashSet
java·开发语言·学习
咕噜企业分发小米6 小时前
如何利用云服务器搭建游戏服务器并实现跨平台游戏?
运维·服务器·游戏