谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

原文:Google Deepmind announces Genie, the first generative interactive environment model

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞,这是一个从互联网视频中学习而来的创新世界模型,能够根据图像提示创造出无限种可操作的 2D 世界。

与其加入先验偏见,我们更加注重扩大规模。我们利用了一个包含超过 20 万小时的 2D 平台游戏视频的巨大数据集,训练出了一个拥有 110 亿参数的世界模型。Genie 能够以无监督的方式学习各种潜在动作,从而以一种连贯的方式控制角色。

我们的模型能够将任意图像转化为一个可以互动的 2D 世界。例如,Genie 能够赋予人类设计的草图新的生命,就像来自两位史上最年轻的世界创造者 Seneca 和 Caspian 的精美艺术作品一样。

Genie 学习到的动作空间不仅丰富多彩、一致性强,还易于理解。人们在尝试几次后,通常能够将其与具有语义意义的动作(比如向左走、向右走、跳跃等)相对应。

必须承认,@OpenAI 的 Sora 实在是太震撼了,其视觉效果令人赞叹,但正如 @yanlecun 所强调的,一个世界模型必须要有"动作"才行。Genie 不仅是一个能够控制动作的世界模型,而且它是完全通过视频学习而来的,不依赖任何监督。那我们是怎么做到的呢?

关于什么是世界模型,人们有许多不同的理解。以下是我的定义:

考虑以下几点:

  • 观测值 x(t)
  • 对世界状态的先前估计 s(t)
  • 行动建议 a(t)
  • 潜在变量建议 z(t)

世界模型的计算过程如下:

  • 表征:h(t) = 编码器 (Enc)(x(t))
  • 预测:下一状态 s(t+1) = 预测器 (Pred)(h(t), s(t), z(t), a(t))

其中:

  • 编码器 (Enc) 是一种编码功能(可训练的确定性函数,如神经网络)
  • 预测器 (Pred) 负责预测隐藏状态(同样是可训练的确定性函数)
  • 潜在变量 z(t) 代表能够精确预测未来发生事件的未知信息。它需要从一定的分布中采样或在一定集合中变动,为一系列可能的预测设定参数。

关键在于,通过观察三元组 (x(t), a(t), x(t+1)) 来训练整个模型,同时避免编码器退化到一个忽略输入的简单解决方案。

在自回归生成模型(如大语言模型 LLMs)中,情况稍微简单些,其中:

  1. 编码器是恒等函数:h(t) = x(t)
  2. 状态是过去输入的序列
  3. 不包含行动变量 a(t)
  4. x(t) 是离散的
  5. 预测器计算下一状态 x(t+1) 的可能结果,并利用潜变量 z(t) 从中选择一个具体值。

这种情况下的方程简化为:

s(t) = [x(t), x(t-1), ..., x(t-k)]

x(t+1) = 预测器 (Pred)(s(t), z(t), a(t))

在这种情况下,不会出现退化问题。

-- BY Yann LeCun @ylecun twitter.com/ylecun/stat...

我们开发了一种具备时间感知能力的视频分词器,它能将视频压缩成离散标记,采用一个潜在行动模型来描述两帧之间的转换,这一转换被编码为八种潜在行动之一,以及一个 MaskGIT 动力学模型来预测未来的帧。

这里的关键还是数据和计算能力!我们训练了一个分类器,以筛选出高质量的视频子集,并进行了规模实验,结果显示模型性能随着参数数量和批次大小的增加而稳定提升。我们最终的模型达到了 110 亿参数量。

Genie 的模型具有广泛的通用性,不仅仅局限于二维空间。我们还对机器人数据集 (RT-1) 进行了 Genie 训练,尽管其中不包含任何具体的动作数据,我们也成功展示了如何学习到一个可以控制动作的仿真器。我们认为,这是向着为通用人工智能 (AGI) 构建全面世界模型迈出的一大步。

Genie 项目是一个由 Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge Shi (Jimmy)、Edward Hughes、Matthew Lai、Aditi Mavalankar、Richie Steigerwald 等人共同努力的成果,是一个团队协作的典范。

特别感谢 Ashley、Jack 和 Jake 在项目中展现出的杰出领导力!如果您对 Genie 有进一步的兴趣,欢迎查阅我们的论文和官网。详见下方链接:

相关推荐
央链知播3 分钟前
何超谈“AI元宇宙将引领场景革命 “十五五”勾勒科技新蓝图”
人工智能·科技
政采云技术3 分钟前
音视频通用组件设计探索和应用
前端·音视频开发
CV视觉13 分钟前
AI 实战篇:用 LangGraph 串联 RAG+MCP Server,打造能直接操控 Jira 的智能体
人工智能·深度学习·机器学习·自然语言处理·langchain·prompt·jira
骄傲的心别枯萎15 分钟前
RV1126 NO.42:OPENCV形态学基础之一:膨胀
人工智能·opencv·计算机视觉
亚马逊云开发者17 分钟前
Agentic AI基础设施实践经验系列(五):Agent应用系统中的身份认证与授权管理
人工智能
Hilaku21 分钟前
我用AI重构了一段500行的屎山代码,这是我的Prompt和思考过程
前端·javascript·架构
爱编程的鱼42 分钟前
ESLint 是什么?
开发语言·网络·人工智能·网络协议
星光一影43 分钟前
Spring Boot 3+Spring AI 打造旅游智能体!集成阿里云通义千问,多轮对话 + 搜索 + PDF 生成撑全流程
人工智能·spring boot·spring
IT_陈寒1 小时前
Vite性能优化实战:5个被低估的配置让你的开发效率提升50%
前端·人工智能·后端
IT_陈寒1 小时前
Java性能调优的7个被低估的技巧:从代码到JVM全链路优化
前端·人工智能·后端