我的王者荣耀有救了!谷歌发布游戏 SIMA 2,不开外挂「像人一样」练级

「【新智元导读】如果一个 AI,像人类一样看屏幕、敲键鼠、自己练级变强,这种游戏搭子,你愿意拥有吗?可能不久将来,类似王者荣耀、DOTA 2 这样的游戏就可以选择和 AI 组队,而不是和人组队了!」

想象一个智能体,它「出生」在一个虚拟 3D 游戏中,能推理,能学习。

并且,它不走后门,去操纵游戏底层指令,而是和人一样,只「观看」屏幕画面,并且使用「虚拟键盘和鼠标」来进行操作。

也就是,创造一个智能体,但完完全全「像人一样」去打游戏。

这就是谷歌 DeepMind 推出的 SIMA 2 智能体!

一个能陪你在虚拟世界中一同游戏、推理和学习的智能体。

我觉得 DeepMind 才是那个不忘初心的「Open」AI 公司。

不管是从下围棋的 AlphaGo 再到破解生命之谜的 AlphaFold 等等 Alpha 系列。

然后还有谷歌主打的 Gemini 大模型系列,以及世界模型 Genie 3 系列,等等。

可以说谷歌在 AI 领域是全方面、全栈式发力。

SIMA 2 可以说是朝着通用人工智能方向迈出的重要一步。

SIMA,全称 Scalable Instructable Multiworld Agent,可扩展指令多世界智能体。

别看现在它只是观看屏幕打游戏,如果能够「像人」一样理解游戏画面并做出正确的操作。

那么可以将这种推理和理解能力扩展到其他世界中,甚至也可以拓展到具身智能,这就是 SIMA 真正的野心。

这意味着,可能不久以后,我们就可以在游戏中组队类似 SIMA 智能体。

我的 DOTA2、我的王者荣耀、我的英雄联盟手游好像终于有救,希望以后的 MOBA 类游戏都能出一个类似的选项,选择和 AI 组队,而不是和人组队。

「推理的力量」

在 SIMA 1 中,智能体学会了执行超过 600 种语言指令技能,例如拍梯子、打开地图。

在 SIMA 2 中,智能体已经可以突破单纯的指令跟随的局限。

通过将 Gemini 作为智能体的核心引擎,SIMA 2 不仅能响应指令,还能对指令进行思考与推理。

比如下面 MineDojo 游戏中,SIMA 2 可以完全在这个「从未见过」的游戏中,靠着推理能力完成任务。

SIMA 2 是用什么数据训练的呢?

DeepMind 使用带有人类演示视频、语言标签以及 Gemini 生成标签的混合数据对 SIMA 2 进行训练。

某种意义上,这种思路和特斯拉 FSD 的端到端具有异曲同工之妙,再更深一步,只要给 AI 数据和算力,AI 肯定能学会「人类这点能力」。

SIMA 2 不仅能响应用户提问,还能对其自身行为及所处环境进行逻辑推理。

研究人员在博客中也感慨,与 SIMA 2 互动时,真的感觉更像是在与一个「伙伴、游戏搭子」一起系统合作。

这或许也算是 SIMA 2 通过游戏上的「图灵测试」。

谷歌认为这个能力的底层逻辑还是 Gemini 带来的,靠着强大的推流能力,SIMA 2 可以在复杂的 3D 环境中进行感知。

「泛化能力飞跃」

谷歌推出 SIMA 2,除了用游戏训练是初期最合适的手段外,另一个考量就是增强智能体的泛化能力。

SIMA 2 能够理解并完成长期复杂的任务。

短期指令,比如左转、走三步、爬梯子都是比较容易了,但是如何完整的「打通」游戏关卡才是验证通用能力的关键。

SIMA 2 现在可以在未经预训练的情况下攻克全新的游戏。(左边是 Gemini 的推理过程,右边是 SIMA 在操作游戏)

除了语言指令,SIMA 2 还能理解多模态的提示。

比如,用户在画面中绘制一个路线草图,SIMA 理解玩家的意思,然后再操作。

在游戏中画个红框 + 箭头,让智能体据此操作。

其他的理解能力还有,符号。

比如用户发送一个🪓+ 树木的表情符号,然后智能体就屁颠颠的说「好吧,我不睡,我去砍树去」。

泛化能力的另一个体现是在不同游戏之间的迁移。

比如 A 游戏中学会的「挖掘」,可以应用于 B 游戏的「采集」。

下面这个图展示 SIMA 2 相对 SIMA 1 能力的巨大提升。

「终极考验:畅游想象世界」

谷歌为了测试 SIMA 2 的泛化能力,使用了 Genie 3 来配合。

Genie 3 生成全新的 3D 模拟世界,然后让 SIMA 2 在这些「架空世界」中行动。

Genie 3 本身会遵循物理规律生成世界,但是和真实世界的展现又可能完全不同。

谷歌的测试结果是,SIMA 2 依然能保持良好的环境适应能力。

「可扩展的多任务自我提升」

SIMA 2 最令人兴奋的能力是能够自我学习,自我进化,自我提升。

谷歌说在整个训练过程中,SIMA 2 智能体能够通过试错和基于 Gemini 的反馈引导,执行更加复杂的任务。

在最初从人类示范中学习后,SIMA 2 能够过渡到完全通过自主游戏继续学习。

在全新世界学习时,无需额外的人类生成数据。

左侧展示的是初代 SIMA 2 智能体未能完成的任务示例。

而右侧则显示经过多轮训练迭代后,SIMA 2 已实现自我提升,整个过程完全无需人类反馈或游戏数据介入。

SIMA 2 能在很多不同类型的游戏里运行,这对检验「通用智能」非常关键。

在这些游戏中,智能体可以学会各种技能、练习复杂的推理,还能通过自己玩游戏不断提升能力。

不过,SIMA 2 目前还是研究阶段的系统,离真正的「通用具身智能」还有距离。

它在处理那种特别长、特别复杂、需要很多步推理和反复检查目标的大任务时,还是会吃力。

它对交互过程的记忆也不算长,只能在有限的上下文里工作,以保证响应足够快。

另外,想要只用键盘鼠标就做出非常精细的操作,或者稳定地看懂复杂的 3D 场景,这些在整个领域里都还是难题。

这项研究说明了一条新的路:

通过大量、多类型的虚拟世界数据,加上 Gemini 很强的推理能力,可以训练出一个通用的智能体,把原本分散在不同专用系统里的能力整合到一起。

SIMA 2 也为未来的机器人应用打下了基础。

它学到的能力------比如导航、用工具、和他人协作完成任务------正是将来让机器人在现实世界中成为「智能助手」所需要的底层模块。

参考资料:

deepmind.google/blog/sima-2...

相关推荐
还不秃顶的计科生4 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
九河云4 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
Elastic 中国社区官方博客4 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
大模型真好玩4 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心5 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥5 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent
陈佬昔没带相机5 小时前
MiniMax M2 + Trae 编码评测:能否与 Claude 4.5 扳手腕?
前端·人工智能·ai编程
美狐美颜SDK开放平台5 小时前
从0到1开发直播美颜SDK:算法架构、模型部署与跨端适配指南
人工智能·架构·美颜sdk·直播美颜sdk·第三方美颜sdk·美狐美颜sdk
小陈phd5 小时前
RAG从入门到精通(四)——结构化数据读取与导入
人工智能·langchain
玖日大大5 小时前
Trae:字节跳动 AI 原生 IDE 的技术革命与实战指南
ide·人工智能