谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

原文:Google Deepmind announces Genie, the first generative interactive environment model

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞,这是一个从互联网视频中学习而来的创新世界模型,能够根据图像提示创造出无限种可操作的 2D 世界。

与其加入先验偏见,我们更加注重扩大规模。我们利用了一个包含超过 20 万小时的 2D 平台游戏视频的巨大数据集,训练出了一个拥有 110 亿参数的世界模型。Genie 能够以无监督的方式学习各种潜在动作,从而以一种连贯的方式控制角色。

我们的模型能够将任意图像转化为一个可以互动的 2D 世界。例如,Genie 能够赋予人类设计的草图新的生命,就像来自两位史上最年轻的世界创造者 Seneca 和 Caspian 的精美艺术作品一样。

Genie 学习到的动作空间不仅丰富多彩、一致性强,还易于理解。人们在尝试几次后,通常能够将其与具有语义意义的动作(比如向左走、向右走、跳跃等)相对应。

必须承认,@OpenAI 的 Sora 实在是太震撼了,其视觉效果令人赞叹,但正如 @yanlecun 所强调的,一个世界模型必须要有"动作"才行。Genie 不仅是一个能够控制动作的世界模型,而且它是完全通过视频学习而来的,不依赖任何监督。那我们是怎么做到的呢?

关于什么是世界模型,人们有许多不同的理解。以下是我的定义:

考虑以下几点:

  • 观测值 x(t)
  • 对世界状态的先前估计 s(t)
  • 行动建议 a(t)
  • 潜在变量建议 z(t)

世界模型的计算过程如下:

  • 表征:h(t) = 编码器 (Enc)(x(t))
  • 预测:下一状态 s(t+1) = 预测器 (Pred)(h(t), s(t), z(t), a(t))

其中:

  • 编码器 (Enc) 是一种编码功能(可训练的确定性函数,如神经网络)
  • 预测器 (Pred) 负责预测隐藏状态(同样是可训练的确定性函数)
  • 潜在变量 z(t) 代表能够精确预测未来发生事件的未知信息。它需要从一定的分布中采样或在一定集合中变动,为一系列可能的预测设定参数。

关键在于,通过观察三元组 (x(t), a(t), x(t+1)) 来训练整个模型,同时避免编码器退化到一个忽略输入的简单解决方案。

在自回归生成模型(如大语言模型 LLMs)中,情况稍微简单些,其中:

  1. 编码器是恒等函数:h(t) = x(t)
  2. 状态是过去输入的序列
  3. 不包含行动变量 a(t)
  4. x(t) 是离散的
  5. 预测器计算下一状态 x(t+1) 的可能结果,并利用潜变量 z(t) 从中选择一个具体值。

这种情况下的方程简化为:

s(t) = [x(t), x(t-1), ..., x(t-k)]

x(t+1) = 预测器 (Pred)(s(t), z(t), a(t))

在这种情况下,不会出现退化问题。

-- BY Yann LeCun @ylecun twitter.com/ylecun/stat...

我们开发了一种具备时间感知能力的视频分词器,它能将视频压缩成离散标记,采用一个潜在行动模型来描述两帧之间的转换,这一转换被编码为八种潜在行动之一,以及一个 MaskGIT 动力学模型来预测未来的帧。

这里的关键还是数据和计算能力!我们训练了一个分类器,以筛选出高质量的视频子集,并进行了规模实验,结果显示模型性能随着参数数量和批次大小的增加而稳定提升。我们最终的模型达到了 110 亿参数量。

Genie 的模型具有广泛的通用性,不仅仅局限于二维空间。我们还对机器人数据集 (RT-1) 进行了 Genie 训练,尽管其中不包含任何具体的动作数据,我们也成功展示了如何学习到一个可以控制动作的仿真器。我们认为,这是向着为通用人工智能 (AGI) 构建全面世界模型迈出的一大步。

Genie 项目是一个由 Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge Shi (Jimmy)、Edward Hughes、Matthew Lai、Aditi Mavalankar、Richie Steigerwald 等人共同努力的成果,是一个团队协作的典范。

特别感谢 Ashley、Jack 和 Jake 在项目中展现出的杰出领导力!如果您对 Genie 有进一步的兴趣,欢迎查阅我们的论文和官网。详见下方链接:

相关推荐
xyphf_和派孔明几秒前
关于Web前端安全防御CSRF攻防的几点考虑
前端·安全·csrf
stars10 分钟前
数字人开发02--前端服务配置
前端·人工智能
好多渔鱼好多11 分钟前
【语音技术】意图与语料
人工智能·智能家居·智能互联·语音技术·影音开发·意图
无风听海21 分钟前
理解梯度在神经网络中的应用
人工智能·深度学习·神经网络·梯度
仪器科学与传感技术博士26 分钟前
python:前馈人工神经网络算法之实战篇,以示例带学,弄明白神经网络算法应用的思路、方法与注意事项等
人工智能·python·深度学习·神经网络·算法·机器学习
测试者家园34 分钟前
用 LLM 辅助性能测试报告生成
人工智能·llm·性能测试·ai赋能·智能化测试
懋学的前端攻城狮42 分钟前
Next.js + TypeScript + Shadcn UI:构建高性能懒加载与无限滚动系统
前端·react.js·前端框架
爱分享的飘哥1 小时前
第三十七章:文生图的炼金术:Stable Diffusion完整工作流深度解析
人工智能·pytorch·stable diffusion·文生图·ai绘画·代码实战·cfg
宋辰月1 小时前
Vue2的进阶Vue3
前端·javascript·vue.js
酷飞飞2 小时前
C语言的复合类型、内存管理、综合案例
java·c语言·前端