Seedance2.0还在做视频,这个AI已经开始"造世界"了..

大家好,我是袋鼠帝。

我们熟知的 AI 模型,有写文章的大语言模型,有画图的生图模型,有做视频的视频模型,还有音频模型。

这几块经过几年的飞速发展,现在已经非常强大,感觉快要到达一个奇点了。

特别是,临近春节,字节发布的 Seedance 2.0,直接把视频生成拉到了天花板,我看很多朋友已经在用它做短剧、做特效了。

而最近,模型界又多出来一个新的东西:世界模型,它也是视频模型的一种,但是又跟我们认识的视频模型有很大区别。

我甚至在它身上看到了《头号玩家》的雏形,这给我带来了不少的兴奋感。

我一直在畅想,咱们这代人老了之后,大概率是不会去跳广场舞的吧?

我最理想的退休状态,就是戴上 VR 眼镜,去玩真实版的《头号玩家》,去体验一百种不同的人生,甚至成为那个世界的掌控者,随心所欲地控制我遇到的人和事。

想想,都觉得梦幻。

先看一段视频(展示了人与视频交互导致的场景、四季变化)

你可能会稍微理解,我为什么说世界模型,像《头号玩家》的雏形。

这就是 PixVerse 最新发布的 R1 实时世界模型,的交互效果。

像不像一个实时渲染的游戏引擎?但它不需要复杂的建模和编程,只需要你的一句话。

什么是世界模型?它跟视频生成模型有啥不一样?

很多朋友可能会问,这不也是生成视频吗?有什么稀奇的?

为了让大家理解,我打个比方。

传统的视频生成模型,就像是你在看一场录播的电影。

你输入一段文字,AI 给你生成一段视频,你只能看,不能改。如果你想改变剧情,比如想让主角往左走而不是往右走,那你只能重新生成一段新的视频,之前的就作废了。

而世界模型,就像是你在玩一个开放世界的游戏(比如《我的世界》或者《GTA5》)。

画面是实时的,剧情是连续的。你输入指令说"往左走",主角就真的往左走了;你接着说"下雨",天就真的下雨了。

它是活的。

在这个世界里,视频不再是一段封闭的素材,是一个可以无限延展、实时互动的流媒体。你既是导演,又是玩家。你可以随时介入,改变世界的走向。

同时PixVerse 这个名字大家应该不陌生,他们在视频生成领域一直口碑不错。

1 月 13 号,他们突然发布了一款叫 R1 的模型,而最近,不到一个月的时间,R1 又做了一次大版本升级。

这次升级,直接把它从一个工具变成了一个生态平台。

当然,R1 最让我兴奋的地方是这种即时反馈、未知感、掌控感,会让我忍不住想继续探索。

让我不禁想起《千与千寻》里的神隐世界,以及《爱丽丝梦游仙境》里的兔子洞。

我不知道大家有没有过这种经历:有时候,你会在梦中突然意识到自己是在做梦,并尝试做控制梦境,但又像是一个旁观者,很难操控,接着,你会挣扎半天,慢慢醒过来。

R1 世界模型,它就像一个能被控制的梦。你既是旁观者,又是参与者。

下面是一些我最近玩R1的录屏,有时候真的是玩着玩着就忘记时间了,非常新奇的一种体验。

奇幻按钮探险

我制作了一个更开放的游戏:奇幻按钮探险。

设定很简单:画面中有一个红色的按钮。每当我在输入框里输入指令,屏幕里的世界就会发生翻天覆地的变化。

当我输入:"按钮变成机械蜘蛛。一只赛博朋克版的蜘蛛就慢慢爬过来了。

当我输入:"按钮变成通往雨林世界的传送门"。转眼就来到了一个充满生机的热带雨林。

像一个开放世界一样,下一秒你会遇到什么,完全是由你左右的。这身临其境的体验感,是传统视频生成给不了的。

洞穴探险

我还试了一个更宏大的场景:洞穴探险。

我输入:"发现一株蓝色的花"。画面中真的出现了一株蓝色的花。

接着,我输入:"继续走,发现了钻石"。视角自动推进,洞壁上亮起了钻石的光芒。

这简直就是在玩一个文字冒险游戏的 3D 升级版!

而且你构建的世界还能发布到世界广场,别人也可以来你构建的世界自由玩耍。

比如我就进入了这个老哥构建的吵醒毛毛虫的游戏。

这是一个非常有意思的互动场景。画面里本来有一只正在睡觉的毛毛虫。

我通过指令让蚂蚁,松鼠出现在画面中,并改变毛毛虫的状态。

除了好玩,世界模型其实还有很多严肃的应用场景。

比如游戏开发:以前策划想验证一个玩法,需要美术建模、程序写代码,折腾半个月。

现在用 R1,很快就能搭出一个可交互的原型,验证想法是否靠谱。

比如建筑设计:建筑师可以模拟不同天气、不同光照下的空间效果,甚至可以让客户在还没建好的房子里"云看房"。

比如影视特效等等...

估计要不了多久 R1 就会支持音频同步生成。

这意味着你看的同时,也能听到这个世界。

风声、雨声、人声,都是实时生成的,沉浸感直接拉满,狠狠的期待住了

「最后」

虽然现在的 R1 还在初级阶段(算是新物种),画面有时候会糊,控制也不是百分百精准,偶尔还会出现一些鬼畜的物理现象。

但我感觉它会是未来视频的发展方向。

你可以想象一下,当把这个世界模型的画面换成 8K 高清 VR,然后接上脑机接口。到那时,你甚至分不清什么是现实,什么是生成的。

这套简单组合下来,不就是《头号玩家》吗?

另外,目前PixVerse 已经开放了 API(不过需要申请),申请地址放在文末的「阅读原文」了。

这意味着开发者可以把这个能力接入到各种应用里。

也许要不了多久,我们就能在手机上玩到基于世界模型的无限游戏,或者看到永远不会完结的互动剧。

这,不就是《头号玩家》的雏形吗?

或许小扎的元宇宙有救了?

我是袋鼠帝,一个春节还在努力更新的AI博主~

谢谢你耐心看完我的文章~

相关推荐
AI袋鼠帝2 小时前
我宣布:今年春节的年味,交给秒哒了!
aigc·ai编程
AI袋鼠帝3 小时前
智谱GLM-5这次开源,让高级程序员也危险了...
aigc·ai编程·chatglm (智谱)
万里鹏程转瞬至3 小时前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc
万里鹏程转瞬至3 小时前
SLA与Flash_attn对比测试
深度学习·aigc
小程故事多_805 小时前
抛弃工具堆砌,基于 LangGraph + 开源生态,打造可自愈的 AI Agent 系统
人工智能·开源·aigc
SmartBrain8 小时前
技术洞察:SpringAI与LangGraph选型对比
人工智能·spring boot·架构·langchain·aigc·fastapi
用户606487671889610 小时前
Python + DALL·E / Gemini 批量生图实战:从单张到流水线的完整方案
aigc
软希网分享源码10 小时前
AIGC自动化编程实战(Python、Java、JavaScript和VBA) -2.9G课程
python·自动化·aigc
有点心急102111 小时前
SQL 执行 MCP 工具开发(一)
人工智能·python·aigc