Seedance2.0还在做视频，这个AI已经开始"造世界"了..

大家好，我是袋鼠帝。

我们熟知的 AI 模型，有写文章的大语言模型，有画图的生图模型，有做视频的视频模型，还有音频模型。

这几块经过几年的飞速发展，现在已经非常强大，感觉快要到达一个奇点了。

特别是，临近春节，字节发布的 Seedance 2.0，直接把视频生成拉到了天花板，我看很多朋友已经在用它做短剧、做特效了。

而最近，模型界又多出来一个新的东西：世界模型，它也是视频模型的一种，但是又跟我们认识的视频模型有很大区别。

我甚至在它身上看到了《头号玩家》的雏形，这给我带来了不少的兴奋感。

我一直在畅想，咱们这代人老了之后，大概率是不会去跳广场舞的吧？

我最理想的退休状态，就是戴上 VR 眼镜，去玩真实版的《头号玩家》，去体验一百种不同的人生，甚至成为那个世界的掌控者，随心所欲地控制我遇到的人和事。

想想，都觉得梦幻。

先看一段视频（展示了人与视频交互导致的场景、四季变化）

你可能会稍微理解，我为什么说世界模型，像《头号玩家》的雏形。

这就是 PixVerse 最新发布的 R1 实时世界模型，的交互效果。

像不像一个实时渲染的游戏引擎？但它不需要复杂的建模和编程，只需要你的一句话。

什么是世界模型？它跟视频生成模型有啥不一样？

很多朋友可能会问，这不也是生成视频吗？有什么稀奇的？

为了让大家理解，我打个比方。

传统的视频生成模型，就像是你在看一场录播的电影。

你输入一段文字，AI 给你生成一段视频，你只能看，不能改。如果你想改变剧情，比如想让主角往左走而不是往右走，那你只能重新生成一段新的视频，之前的就作废了。

而世界模型，就像是你在玩一个开放世界的游戏（比如《我的世界》或者《GTA5》）。

画面是实时的，剧情是连续的。你输入指令说"往左走"，主角就真的往左走了；你接着说"下雨"，天就真的下雨了。

它是活的。

在这个世界里，视频不再是一段封闭的素材，是一个可以无限延展、实时互动的流媒体。你既是导演，又是玩家。你可以随时介入，改变世界的走向。

同时PixVerse 这个名字大家应该不陌生，他们在视频生成领域一直口碑不错。

1 月 13 号，他们突然发布了一款叫 R1 的模型，而最近，不到一个月的时间，R1 又做了一次大版本升级。

这次升级，直接把它从一个工具变成了一个生态平台。

当然，R1 最让我兴奋的地方是这种即时反馈、未知感、掌控感，会让我忍不住想继续探索。

让我不禁想起《千与千寻》里的神隐世界，以及《爱丽丝梦游仙境》里的兔子洞。

我不知道大家有没有过这种经历：有时候，你会在梦中突然意识到自己是在做梦，并尝试做控制梦境，但又像是一个旁观者，很难操控，接着，你会挣扎半天，慢慢醒过来。

R1 世界模型，它就像一个能被控制的梦。你既是旁观者，又是参与者。

下面是一些我最近玩R1的录屏，有时候真的是玩着玩着就忘记时间了，非常新奇的一种体验。

奇幻按钮探险

我制作了一个更开放的游戏：奇幻按钮探险。

设定很简单：画面中有一个红色的按钮。每当我在输入框里输入指令，屏幕里的世界就会发生翻天覆地的变化。

当我输入："按钮变成机械蜘蛛。一只赛博朋克版的蜘蛛就慢慢爬过来了。

当我输入："按钮变成通往雨林世界的传送门"。转眼就来到了一个充满生机的热带雨林。

像一个开放世界一样，下一秒你会遇到什么，完全是由你左右的。这身临其境的体验感，是传统视频生成给不了的。

洞穴探险

我还试了一个更宏大的场景：洞穴探险。

我输入："发现一株蓝色的花"。画面中真的出现了一株蓝色的花。

接着，我输入："继续走，发现了钻石"。视角自动推进，洞壁上亮起了钻石的光芒。

这简直就是在玩一个文字冒险游戏的 3D 升级版！

而且你构建的世界还能发布到世界广场，别人也可以来你构建的世界自由玩耍。

比如我就进入了这个老哥构建的吵醒毛毛虫的游戏。

这是一个非常有意思的互动场景。画面里本来有一只正在睡觉的毛毛虫。

我通过指令让蚂蚁，松鼠出现在画面中，并改变毛毛虫的状态。

除了好玩，世界模型其实还有很多严肃的应用场景。

比如游戏开发：以前策划想验证一个玩法，需要美术建模、程序写代码，折腾半个月。

现在用 R1，很快就能搭出一个可交互的原型，验证想法是否靠谱。

比如建筑设计：建筑师可以模拟不同天气、不同光照下的空间效果，甚至可以让客户在还没建好的房子里"云看房"。

比如影视特效等等...

估计要不了多久 R1 就会支持音频同步生成。

这意味着你看的同时，也能听到这个世界。

风声、雨声、人声，都是实时生成的，沉浸感直接拉满，狠狠的期待住了

「最后」

虽然现在的 R1 还在初级阶段（算是新物种），画面有时候会糊，控制也不是百分百精准，偶尔还会出现一些鬼畜的物理现象。

但我感觉它会是未来视频的发展方向。

你可以想象一下，当把这个世界模型的画面换成 8K 高清 VR，然后接上脑机接口。到那时，你甚至分不清什么是现实，什么是生成的。

这套简单组合下来，不就是《头号玩家》吗？

另外，目前PixVerse 已经开放了 API（不过需要申请），申请地址放在文末的「阅读原文」了。

这意味着开发者可以把这个能力接入到各种应用里。

也许要不了多久，我们就能在手机上玩到基于世界模型的无限游戏，或者看到永远不会完结的互动剧。

这，不就是《头号玩家》的雏形吗？

或许小扎的元宇宙有救了？

我是袋鼠帝，一个春节还在努力更新的AI博主～

谢谢你耐心看完我的文章~