Skywork AI团队发布了Matrix-Game 3.0,解决AI视频“失忆”问题

720p 40帧实时生成,AI终于能"造世界"而不只是"造片段"了

这个突破挺有意思。Skywork AI团队发布了Matrix-Game 3.0,首次在720p高清分辨率下实现了每秒40帧的实时视频生成。更重要的是,它解决了AI视频生成中长期存在的"失忆"问题。

这不是简单的"生成更快了",这是从"生成片段"进化到了"构建世界"。

论文地址: https://arxiv.org/pdf/2604.08995

AI视频为什么会"失忆"?

先说个技术问题。长期以来,AI视频生成模型在处理长序列互动时,常因缺乏有效记忆而出现空间结构错乱或风格漂移。

什么意思呢?比如你让AI生成一个虚拟世界,你在里面走动、探索。当你走了一圈回到原点,AI可能已经"忘记"了最初的样子------场景细节变了、风格也不一致了。这就是"失忆"。

这个问题很致命。如果你要构建一个可交互的虚拟世界,用户"故地重游"时发现场景完全变了,体验就崩了。

Matrix-Game 3.0通过引入相机感知的记忆检索机制打破了这一瓶颈。系统能根据当前的相机姿态精准检索历史画面,还采用了统一的自注意力架构,将远期记忆、近期历史与当前预测帧置于同一空间进行联合建模。

简单说,就是AI有了"长期记忆",能记住之前生成的内容,保持时空一致性。

用3A游戏数据训练AI理解物理世界

为了让AI深刻理解真实世界的物理逻辑,研发团队构建了一套规模庞大的"数据工厂"。

这个数据工厂有三个来源:

第一,虚拟现实同步生成。 利用虚幻引擎5(UE5)开发了Unreal-Gen平台,可全自动生成包含超过1亿种角色组合的电影级交互视频。这是自己造数据。

第二,3A大作自动化采集。 系统支持从《侠盗猎车手5》、《赛博朋克2077》等顶级游戏中大规模自动录制高质量的交互数据。这是从最好的游戏里学习。

第三,多维真实场景补充。 整合了超过10,000个真实世界的4K序列,涵盖室内、城市及航拍等多样化场景。这是从真实世界学习。

这三类数据的组合,让AI同时理解虚拟世界的构建逻辑和真实世界的物理规律。这个训练策略很聪明。

Sorry, your browser doesn't support embedded videos. 抱歉,浏览器不支持 video 视频

速度怎么做到的?剪枝+量化

为满足实时交互对超低延迟的要求,Matrix-Game 3.0在推理架构上进行了深度优化。

团队采用了多段自回归蒸馏策略 ,并结合了VAE解码器剪枝技术(剪枝率高达75%),使解码速度提升了5倍以上。

剪枝是什么?就是把模型里不太重要的参数砍掉。剪枝率75%,意味着只保留25%的参数,但性能基本不变。这需要很精细的技术,不能把重要的参数砍错了。

此外,通过INT8量化等手段,系统进一步压低了计算开销。量化就是把浮点数转成整数,计算更快、内存占用更少。

最终结果:在5B参数规模下依然能流畅运行,720p分辨率下达到40FPS。

28B的MoE模型也展示了

除了5B版本,团队还展示了参数规模达28B的MoE模型。

MoE是Mixture of Experts的缩写,混合专家模型。这种架构的特点是:模型很大,但每次推理只激活一部分参数,所以推理速度快。

随着模型规模的提升,AI在动态模拟、场景过渡以及通用泛化能力上表现出更强的生命力。这说明规模还是有用的,只是需要用MoE这种聪明的架构来实现。

这东西有什么用?

业内专家指出,Matrix-Game 3.0的问世为机器人训练、XR扩展现实以及下一代沉浸式娱乐提供了关键的技术底座。

想象一下:

机器人训练:在AI生成的虚拟世界里训练机器人,比在真实世界训练成本低、风险小

XR扩展现实:实时生成可交互的虚拟环境,VR/AR体验会更沉浸

沉浸式娱乐:游戏、虚拟社交、元宇宙......都需要实时生成可交互的世界

这标志着AI从简单的"生成片段"进化到了"实时构建可交互世界"的新阶段。

总结

Matrix-Game 3.0实现了720p 40帧实时视频生成,解决了AI视频的"失忆"问题。用3A游戏数据+真实场景数据训练,剪枝+量化优化推理速度。5B参数流畅运行,还有28B的MoE版本。为机器人训练、XR、沉浸式娱乐提供了技术底座。

文章来源:AITOP100

相关推荐
墨风如雪13 小时前
我装了 30 多个 Claude Code Skill,每天真开的就 6 个
aigc
刀法如飞16 小时前
Claude Code 命令速查与实践手册
aigc·ai编程·claude
量子位16 小时前
李开复陆奇重仓同一家Harness智能体公司,李笛带队,4个月2轮融资3-5年粮草
aigc
程序员柒叔17 小时前
OpenClaw 系统架构分析
系统架构·aigc·agent·openclaw·clawbot·motlbot
爱吃的小肥羊17 小时前
Claude Code 国内使用教程:手把手教你接入 Kimi 模型,零门槛开搞(2026 最新版)
aigc·ai编程
AI先驱体验官18 小时前
债小白分析:债务优化服务的新变量、AI能否带来行业升级
大数据·人工智能·深度学习·重构·aigc
爱吃的小肥羊18 小时前
Claude 账号又被封了?亲测 3 种国内使用Claude Code 的靠谱方案!
aigc·ai编程
新智元18 小时前
南大团队直击大模型高分神话:人类 90 分,最强模型仅 49 分
人工智能·aigc
新智元18 小时前
全球 AI 双榜第一!力压谷歌 Veo 与 Grok,Vidu Q3「参考生」之王归来
aigc·openai