大家好,我是袋鼠帝。
我们熟知的 AI 模型,有写文章的大语言模型,有画图的生图模型,有做视频的视频模型,还有音频模型。
这几块经过几年的飞速发展,现在已经非常强大,感觉快要到达一个奇点了。
特别是,临近春节,字节发布的 Seedance 2.0,直接把视频生成拉到了天花板,我看很多朋友已经在用它做短剧、做特效了。
而最近,模型界又多出来一个新的东西:世界模型,它也是视频模型的一种,但是又跟我们认识的视频模型有很大区别。
我甚至在它身上看到了《头号玩家》的雏形,这给我带来了不少的兴奋感。
我一直在畅想,咱们这代人老了之后,大概率是不会去跳广场舞的吧?
我最理想的退休状态,就是戴上 VR 眼镜,去玩真实版的《头号玩家》,去体验一百种不同的人生,甚至成为那个世界的掌控者,随心所欲地控制我遇到的人和事。
想想,都觉得梦幻。
先看一段视频(展示了人与视频交互导致的场景、四季变化)
你可能会稍微理解,我为什么说世界模型,像《头号玩家》的雏形。

这就是 PixVerse 最新发布的 R1 实时世界模型,的交互效果。
像不像一个实时渲染的游戏引擎?但它不需要复杂的建模和编程,只需要你的一句话。
什么是世界模型?它跟视频生成模型有啥不一样?
很多朋友可能会问,这不也是生成视频吗?有什么稀奇的?
为了让大家理解,我打个比方。
传统的视频生成模型,就像是你在看一场录播的电影。
你输入一段文字,AI 给你生成一段视频,你只能看,不能改。如果你想改变剧情,比如想让主角往左走而不是往右走,那你只能重新生成一段新的视频,之前的就作废了。
而世界模型,就像是你在玩一个开放世界的游戏(比如《我的世界》或者《GTA5》)。
画面是实时的,剧情是连续的。你输入指令说"往左走",主角就真的往左走了;你接着说"下雨",天就真的下雨了。
它是活的。
在这个世界里,视频不再是一段封闭的素材,是一个可以无限延展、实时互动的流媒体。你既是导演,又是玩家。你可以随时介入,改变世界的走向。
同时PixVerse 这个名字大家应该不陌生,他们在视频生成领域一直口碑不错。
1 月 13 号,他们突然发布了一款叫 R1 的模型,而最近,不到一个月的时间,R1 又做了一次大版本升级。
这次升级,直接把它从一个工具变成了一个生态平台。

当然,R1 最让我兴奋的地方是这种即时反馈、未知感、掌控感,会让我忍不住想继续探索。
让我不禁想起《千与千寻》里的神隐世界,以及《爱丽丝梦游仙境》里的兔子洞。
我不知道大家有没有过这种经历:有时候,你会在梦中突然意识到自己是在做梦,并尝试做控制梦境,但又像是一个旁观者,很难操控,接着,你会挣扎半天,慢慢醒过来。
R1 世界模型,它就像一个能被控制的梦。你既是旁观者,又是参与者。
下面是一些我最近玩R1的录屏,有时候真的是玩着玩着就忘记时间了,非常新奇的一种体验。
奇幻按钮探险
我制作了一个更开放的游戏:奇幻按钮探险。
设定很简单:画面中有一个红色的按钮。每当我在输入框里输入指令,屏幕里的世界就会发生翻天覆地的变化。

当我输入:"按钮变成机械蜘蛛。一只赛博朋克版的蜘蛛就慢慢爬过来了。
当我输入:"按钮变成通往雨林世界的传送门"。转眼就来到了一个充满生机的热带雨林。
像一个开放世界一样,下一秒你会遇到什么,完全是由你左右的。这身临其境的体验感,是传统视频生成给不了的。
洞穴探险
我还试了一个更宏大的场景:洞穴探险。
我输入:"发现一株蓝色的花"。画面中真的出现了一株蓝色的花。
接着,我输入:"继续走,发现了钻石"。视角自动推进,洞壁上亮起了钻石的光芒。

这简直就是在玩一个文字冒险游戏的 3D 升级版!
而且你构建的世界还能发布到世界广场,别人也可以来你构建的世界自由玩耍。
比如我就进入了这个老哥构建的吵醒毛毛虫的游戏。
这是一个非常有意思的互动场景。画面里本来有一只正在睡觉的毛毛虫。
我通过指令让蚂蚁,松鼠出现在画面中,并改变毛毛虫的状态。

除了好玩,世界模型其实还有很多严肃的应用场景。
比如游戏开发:以前策划想验证一个玩法,需要美术建模、程序写代码,折腾半个月。
现在用 R1,很快就能搭出一个可交互的原型,验证想法是否靠谱。
比如建筑设计:建筑师可以模拟不同天气、不同光照下的空间效果,甚至可以让客户在还没建好的房子里"云看房"。
比如影视特效等等...
估计要不了多久 R1 就会支持音频同步生成。
这意味着你看的同时,也能听到这个世界。
风声、雨声、人声,都是实时生成的,沉浸感直接拉满,狠狠的期待住了
「最后」
虽然现在的 R1 还在初级阶段(算是新物种),画面有时候会糊,控制也不是百分百精准,偶尔还会出现一些鬼畜的物理现象。
但我感觉它会是未来视频的发展方向。
你可以想象一下,当把这个世界模型的画面换成 8K 高清 VR,然后接上脑机接口。到那时,你甚至分不清什么是现实,什么是生成的。
这套简单组合下来,不就是《头号玩家》吗?
另外,目前PixVerse 已经开放了 API(不过需要申请),申请地址放在文末的「阅读原文」了。
这意味着开发者可以把这个能力接入到各种应用里。
也许要不了多久,我们就能在手机上玩到基于世界模型的无限游戏,或者看到永远不会完结的互动剧。
这,不就是《头号玩家》的雏形吗?
或许小扎的元宇宙有救了?
我是袋鼠帝,一个春节还在努力更新的AI博主~
谢谢你耐心看完我的文章~