10 秒内完成简单任务
西风 发自 凹非寺量子位 | 公众号 QbitAI
谷歌 DeepMind 号称打造出了首个能在广泛 3D 虚拟环境和视频游戏中遵循自然语言指令的通用 AI 智能体。
名为 SIMA,不是 NPC,是可以成为玩家拍档,帮忙干活打杂的那种。
比如,在《模拟山羊 3》(Goat Simulator 3)中当司机开开车:
在《幸福工厂》(Satisfactory)中挖矿石:
在《瓦尔海姆》(Valheim)中寻找水源:
在《无人深空》中(No Man's Sky)驾驶宇宙飞船射击小行星收集资源:
......
SIMA 全称 Scalable Instructable Multiworld Agent,顾名思义可扩展、可指导、多世界。
之前,谷歌 DeepMind 在 AI + 游戏方面也做过许多工作,比如推出能和人类玩家打 PK、会玩《星际争霸 II》的 AlphaStar 系统。
而 SIMA 被 DeepMind 称作是一个 "新的里程碑",主打从适用单一游戏转向通用多种游戏,且可遵循语言指令。
SIMA 一公开,网友们也是讨论热烈。
让它们替我完成无聊繁琐的任务,这样我就可以直接做有趣的部分,而不必花几个小时培育 chocobos 获取随机召唤。
嗯...《最终幻想》(Final Fantasy)玩家无疑了。
专业《模拟山羊》玩家在此刻也懵了:
最近这一连串的 AI 进展也是整的网友们措不及防,直呼 "慢一点":
接下来再来看一波 SIMA 的表现。
为了让 SIMA 接触到更多游戏环境,开发团队表示目前已与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA。
当前的 SIMA 已在 600 个基本技能上进行了评估。
基本操作、交互、使用菜单都会:
简单的任务,10 秒内可完成。
各种场景都能适应:
除此外,谷歌 DeepMind 还发布了一份技术报告,一起来看看里面都有啥。
SIMA 的整体架构是将预训练视觉模型与自监督学习的 Transformer 相结合。
从用户那里接收语言指令,并从环境中获取图像观察结果,然后将它们映射为键盘和鼠标动作。
具体架构如下图:
开发人员收集了一个既包括精选研究环境又包括商业视频游戏的大型多样化游戏数据集。
此外,他们还用 Unity 创建的一个新环境,名为 "the Construction Lab"。在这个环境中,智能体需要使用积木构建雕塑,这考验了它们对物体的操纵能力和对物理世界的理解。
数据收集包含多种方法,比如让不同成对的人类玩家的互动,其中一名玩家观察并指导另一名玩家,以此来捕获语言指令;让玩家自由玩游戏,观察他们的操作,并记录下可能导致其游戏行为的指令。
通过在不同的游戏世界中学习,SIMA 能够将语言与游戏行为相结合。
不需要访问游戏源代码,也不需要定制 API,仅需要两个输入:屏幕上的图像和用户提供的简单的自然语言指令。
然后 SIMA 就会使用键盘和鼠标输出来控制游戏角色以执行这些指令,这一操作与人类类似,也就意味着 SIMA 有潜力与任何虚拟环境互动。
在评估测试中,研究人员表示 SIMA 在九个 3D 游戏集上接受训练,表现显著优于仅在单个游戏上专门训练的智能体。
而且 SIMA 在未训练过的游戏中的表现和专门使用该游戏数据集训练过的智能体表现一样好。
也就是说,SIMA 在全新环境中具备泛化能力。
此外测试结果还显示,SIMA 的性能依赖于语言。在一个控制测试中,智能体没有接受任何语言训练或指令,它就会出现无目的的操作,不遵循指令。
而且,和人类玩家相比较,SIMA 水平还是差一点。
更多细节,感兴趣的家人们可以查看技术报告。
参考链接:
[1]deepmind.google/discover/bl...
[2]storage.googleapis.com/deepmind-me...
版权所有,未经授权不得以任何形式转载及使用,违者必究。