互动视频还是游戏?还是?世界模型

世界模型

World Models

能够通过模拟环境来预测未来状态,因而被认为是AI的下一个重大突破。

世界模型源于人类的心智模型,通过感官信息转化为对世界的理解。世界模型在强化学习中被广泛应用,帮助智能体更好地理解和适应复杂环境。

早期的研究主要集中在如何构建一个能够捕捉环境动态的生成模型。

Ha 和 Schmidhuber 的开创性论文《World Models》 奠定了这一领域的基础。提出了一个基于神经网络的框架,由三个部分组成:

1/ 视觉模型

使用变分自编码器 (VAE) 将原始像素输入压缩成一个低维的隐向量 z。编码器使用卷积层提取图像特征,解码器使用反卷积层重建图像。

2/ 记忆模型

使用混合密度网络循环神经网络 (MDN-RNN) 预测下一个时刻的隐向量 z 以及其他环境信息。

3/ 控制模型

一个简单的线性模型,根据当前时刻的隐向量 z 和 RNN 的隐藏状态 h,输出动作 a。

这两年,LLM的发展,让世界模型有了新的进展。其中,非常有社会价值的一个研究方向:社会模拟。

LLM 的出现为构建更真实的社会模拟系统提供了可能,如 AI Town 等项目,还有许多不同社会场景中进行尝试,如社交网络、游戏、经济系统等领域的模拟。

基于LLM的agent 通过存储交互观察形成对外部世界的理解,包括记忆等,这些认知有助于其在模拟社会场景中做出决策,如Agent - Pro、GovSim 和 AgentGroupChat 等。

大厂相继涌入这一领域。谷歌的DeepMind聘请了OpenAI视频生成器Sora的作者,着手研发世界模型。

李飞飞成立World Labs,筹集2.3亿美元用于构建大规模世界模型。

李飞飞的world lab

李飞飞提出的世界大模型,致力于构建能够理解和预测世界动态的AI系统。

在最近推出了一款人工智能系统,可以从单个图像生成交互式 3D 场景。

作为新兴"世界模型"的代表之一,旨在提高创建数字环境的控制和一致性。

世界模型,概念振奋人心,技术挑战极大。

OpenAI发布的视频生成模型Sora被其称为世界模拟器。

南京大学教授俞扬认为其难以作为反事实推理工具。因为,世界模型的核心是反事实推理,而Sora更多是视频工具,未能准确学到物理规律。

类似的观点,Meta首席人工智能科学家Yann LeCun批评Sora不能真正理解物理世界,视频生成与世界模型的因果预测有很大不同。

世界模型 ------ 不仅会让您获得图像或视频,而且还可以是一个完全模拟,充满活力和互动的3D世界。

vvictoryuki.github.io/gamefactory

GameFactory

最近的一项研究,实现了和world lab发布的类似的可控性,其主要应用于游戏中。

GameFactory 通过学习Minecraft游戏视频中的小规模数据集,利用预训练的视频扩散模型的先验知识,在开放域中创建新游戏。

它在游戏开发和发行过程中扮演了什么角色?

--- 扮演了一个创新工具的角色。

包括一个可插拔的动作控制模块,有效利用大规模未标注数据和高质量的Minecraft动作数据。

通过多阶段的训练策略,GameFactory不仅具备动作控制能力,还能保持开放域场景生成的能力。

构建更好的GameFactory 可能会面临哪些挑战和机遇?

由于GameFactory依赖于预训练的视频扩散模型和Minecraft游戏视频的小规模数据集,这可能会限制其在其他类型游戏中的泛化能力和表现。

其次,在处理更复杂的游戏场景和多样化的用户交互时,如何有效地扩展和优化其动作控制模块也是一个难题。

最后,在保证生成内容的质量和一致性的同时,如何处理延迟动作效果也是一个需要解决的问题。

但不管怎么说,GameFactory 可以拓展到更多的游戏类型和场景,为我们提供更丰富和多样化的游戏体验。尤其是其创新的动作控制模块和滑动窗口机制,在未来我们有机会开发更复杂和互动性更强的游戏。

在研究世界模型时,有一个方法也许能帮到我们。

理解和分析世界时的三个角度:

关联、干预、反事实

关联

Association

作用:通过观察数据来识别变量之间的关系。主要是描述性和预测性的,不涉及因果关系。

如果我们看到冰淇淋销量增加,同时看到溺水事件增加,我们可以说冰淇淋销量和溺水事件之间存在关联。

观察到高学历人群的收入普遍较高,这说明学历和收入之间存在某种关联。

干预

Intervention

作用:通过主动改变一个变量来观察其对另一个变量的影响,目的是理解因果关系。

如果我们想知道戒烟是否能减少肺癌风险,我们可以进行一个干预实验,让一组人戒烟,另一组人不戒烟,然后观察两组的肺癌发病率。

为了测试肥料对农作物产量的影响,农民可以在部分田地施肥,部分田地不施肥,然后比较产量差异。

反事实

Counterfactuals

作用:通过想象未发生的情景来推断因果关系,帮助理解不同决策的潜在影响。

假设你因为堵车迟到了会议,你会想:"如果我早点出发,就不会迟到。"这是一种反事实思考,假设一个不同的情景来推断结果。

公司在推出新产品后销售额大幅增长,管理层可能会想:"如果我们没有推出这个新产品,销售额会怎样?"这也是反事实推理,通过假设不同的情景来理解因果关系。

这些角度帮助我们从不同角度理解数据和现象,关联帮助我们发现模式和趋势,干预帮助我们理解因果关系,反事实则帮助我们评估不同决策的潜在影响。

如果一个世界模型,可以通过这三个角度的大规模测试,会对社会产生什么样的变革?

至少,基于现在的LLM,我们可以基于以上三个角度构建一个分析和观察世界的Agent。

添加小助手,加入交流社群

相关推荐
向宇it1 天前
【零基础入门unity游戏开发——2D篇】2D 游戏场景地形编辑器——TileMap的使用介绍
开发语言·游戏·unity·c#·编辑器·游戏引擎
双叶8362 天前
(C语言)单链表(1.0)(单链表教程)(数据结构,指针)
c语言·开发语言·数据结构·算法·游戏
二狗哈2 天前
go游戏后端开发21:处理nats消息
开发语言·游戏·golang
前端菜鸟日常2 天前
HMTL+JS+CSS实现贪吃蛇游戏,包含有一般模式,困难模式,还有无敌模式
javascript·css·游戏
火一线3 天前
【Framework-Client系列】UIGenerate介绍
游戏·unity
二狗哈3 天前
go游戏后端开发22:游戏房间功能
游戏·github
BingLin-Liu3 天前
蓝桥杯备考---》贪心算法之矩阵消除游戏
算法·游戏·贪心算法
苹果企业签名分发4 天前
游戏搭建云服务器配置推荐
运维·服务器·游戏
二狗哈4 天前
go游戏后端开发20:房间消息推送处理
开发语言·游戏·golang
fatiaozhang95275 天前
晶晨S905L3A(B)-安卓9.0-开启ADB和ROOT-支持IPTV6-支持外置游戏系统-支持多种无线芯片-支持救砖-完美通刷线刷固件包
android·游戏·adb·华为·电视盒子·机顶盒rom·魔百盒固件