如果说ChatGPT读完了人类互联网所有的书,那么英伟达刚刚开源的NitroGen,就是那个在网吧里泡了4万个小时、看遍了所有大神操作的"超级玩家"。
就在最近,英伟达联合斯坦福、加州理工搞了个大动作,正式开源了名为NitroGen的视觉-动作基础模型。这一手操作直接在AI圈和游戏圈炸了锅。这可不是那种只会跑固定脚本的简陋外挂,而是一个真正长了眼睛、会思考、能操作手柄的通用智能体。
很多人第一反应是:英伟达这是要搞个全能代练?其实,这盘棋下得比你想象的要大得多。

它凭什么能通关一千款游戏?
以往的游戏AI,大多是"专才"。下围棋的AlphaGo不会打星际,打Dota的OpenAI Five不会玩超级马里奥。但NitroGen主打就是一个"全能"。
它的训练数据堪称恐怖:40,000小时的公开游戏视频,覆盖了超过1,000款游戏。从《巫师3》这种复杂的3A大作,到《赛博朋克2077》的霓虹夜景,再到各种横版跳跃小游戏,它全都要。
但最绝的不是数据量,而是它"偷师"的方法。
我们都知道训练AI最贵的是人工标注数据。英伟达的研究团队这次想了个天才般的点子:他们专门去找那些带有"手柄按键显示层"的游戏直播录像。通过算法,把视频里玩家按下的键位自动提取出来,直接对应到当时的游戏画面上。这样一来,不仅省了巨额的人工费,还直接让AI学会了人类高手的操作逻辑。

这不只是玩游戏,这是机器人的模拟考
NitroGen的各种技术指标确实亮眼。比如它的架构魔改自英伟达的机器人模型GR00T,它是纯视觉驱动的------也就是说,它像人一样盯着屏幕看像素,然后输出手柄指令,而不是去读取游戏后台内存数据作弊。
在测试中,即便把NitroGen扔到一个它从未见过的全新游戏里,稍微给点数据微调一下,它的上手速度比从零训练的模型快得多,任务成功率最高能提升52%。这意味着它已经掌握了一套通用的"游戏语法"。
但如果你以为黄仁勋花大钱搞这个只是为了在游戏里虐菜,那就格局小了。

英伟达机器人总监Jim Fan直接点破了天机:电子游戏是训练"具身智能"最完美的模拟宇宙。
现实世界太复杂、容错率太低,你不能让一个刚出厂的机器人去厨房练切菜,切到手或者烧了厨房代价太大。但游戏世界物理规则自洽、反馈即时。如果一个AI能学会在《赛博朋克》里开车、在《古墓丽影》里攀岩、在《我的世界》里合成工具,那么这种对环境的感知力、决策力,是可以迁移到现实世界的机器人身上的。
NitroGen就是英伟达给未来机器人准备的"大脑预演"。
开源的意义:具身智能的GPT时刻?
最让开发者兴奋的是,英伟达这次非常敞亮。
项目主页、论文、代码仓库、甚至连预训练的模型权重和那4万小时处理过的数据集,全部在Hugging Face上开源了。这意味着,全球的研究者不需要再去重复造轮子,直接可以在NitroGen的基础上,去训练针对特定游戏的超强AI,或者是验证新的机器人算法。
我们正在见证一个有趣的转折点:以前我们教AI玩游戏是为了娱乐,现在AI玩游戏,是为了学会如何在这个物理世界中生存和工作。

对于NitroGen来说,通关一千款游戏只是热身,它的星辰大海,是走出屏幕,走进现实。
如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉
公众号:墨风如雪小站