悟界Emu3.5发布:世界模型诞生,多模态进入“下一状态预测”新纪元

当大部分多模态模型还在"看图说话"或"文生图"的单任务中打转,一个能够预测世界"下一帧"会如何演变的模型,已经悄然到来。

北京智源人工智能研究院重磅发布新一代多模态基础模型------"悟界·Emu3.5" 。这不仅仅是一个更强的图像生成器,更是一个被定义为 "多模态世界大模型" 的存在。

它的革命性在于:通过在海量视频数据上端到端学习"下一状态预测",Emu3.5首次让AI获得了对物理世界动态规律的原生理解。这意味着,它不仅能生成图片,更能创作图文交织的连贯故事、提供带视觉演示的教程,甚至模拟虚拟环境,为具身智能打开一扇新的大门。

而更令人振奋的是,它一举攻克了自回归模型生成速度慢的业界难题,通过创新的DiDA技术,将图像推理速度提升了约20倍,在速度与质量上实现了对顶级模型的赶超。

这意味着,通往更通用人工智能的道路上,一个全新的"世界模型"范式,已经显现。

核心亮点

1.原生多模态与"下一状态预测"的统一架构

Emu3.5摒弃了当前主流"大语言模型(LLM)+多模态适配器"的拼凑模式,坚持了其前代模型的原生多模态(Native Multimodality) 路线。

模型基于一个参数量为340亿的稠密Transformer,将文本、图像、视频等所有模态的数据统一表征为离散的Token。其唯一训练目标,就是预测下一个Token,无论这个Token是代表文字还是图像。

下一状态预测(Next-State Prediction): 这是Emu3.5与普通生成模型的本质区别。它不仅仅是预测"下一个词"或"下一张图",而是在更抽象的层面上预测序列的"下一状态"。这种从"下一个Token预测"到"下一状态预测"的升华,使得模型能够自然地学习到现实世界中的动态、因果和时序规律,为其"世界模型"的能力奠定基础。

带来的能力跃迁: 正是这种原生统一的架构,让Emu3.5能够生成交错的多模态序列(如文字-图片-文字-图片......),从而原生支持"视觉叙事"、"视觉指导"等需要长程连贯性的复杂任务。

2.基于10万亿Token视频数据的"世界知识"内化

数据规模与质量:

模型在总量超过10万亿个多模态Token(主要来自互联网视频,总时长约790年)的数据集上进行端到端预训练。这些视频数据包含了连续的视觉帧和同步的语音文本,提供了关于世界动态变化的天然教材。

两阶段预训练:

大规模基础学习: 在10万亿Token的广阔数据上学习通用模式和规律。

高质量能力增强: 进一步在3万亿更高质、高分辨率、强标注的数据上进行训练,激发模型更精细的能力。

带来的能力跃迁: 从静态的图文对中,模型只能学到"是什么";而从海量视频序列中,Emu3.5内化了"如何变化"的知识,从而涌现出对物理规律、时空一致性和简单因果的理解,使其在"世界探索"和"具身操作"任务中表现出色。

3.DiDA------颠覆自回归模型的推理加速技术

自回归模型逐Token生成的特性导致其图像生成速度缓慢,这是其长期以来被诟病的主要缺点。Emu3.5通过创新的离散扩散自适应(Discrete Diffusion Adaptation, DiDA) 技术,彻底改变了这一局面。

核心思想:

DiDA巧妙地将扩散模型的并行去噪 思想引入到离散Token空间。它将生成过程从单向顺序预测,转变为双向并行预测

巨大优势: 这项技术在不牺牲生成质量的前提下,将单张图像的推理速度提升了约20倍 。这使得Emu3.5在生成速度上达到了与顶级扩散模型相媲美的水平,弥合了自回归模型与扩散模型之间最大的性能鸿沟

模型评测

在通用图像编辑与生成任务中,Emu3-3.5展现出令人印象深刻的精确控制与多模态指令遵循能力。它不仅能够完成开放世界的创意编辑,更能实现复杂的时空一致性操作,体现出其对视觉内容深层逻辑的理解。

尤其值得一提的是其在文字渲染方面的表现------生成的图像中文字准确清晰、自然融入画面,在多项测试中,其效果甚至超越了谷歌Gemini-2.5-Flash-Image(Nano Banana)等国际领先模型,显示出强大的技术竞争力。

社区地址

OpenCSG社区:https://opencsg.com/models/BAAI/Emu3.5

hf社区:https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论, 由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

相关推荐
机器之心14 分钟前
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
人工智能·openai
IT_陈寒18 分钟前
Vite的public文件夹放静态资源?这坑我替你踩了
前端·人工智能·后端
传说故事19 分钟前
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
论文阅读·人工智能·diffusion
xixixi7777723 分钟前
三重筑基:5G-A超级上行提速千兆,电联低频共享扫平盲点,800V HVDC算电协同破局
人工智能·5g·ai·大模型·算力·通信·信通院
jkyy201423 分钟前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹31 分钟前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251836 分钟前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
AI木马人44 分钟前
1.人工智能实战:大模型推理接口响应慢?从模型加载到 FastAPI 部署的完整优化方案
人工智能·python·fastapi
Black蜡笔小新1 小时前
私有化本地化AI模型训推工作站DLTM训推一体工作站赋能多行业智能化落地
人工智能
qq_411262421 小时前
四博 AI 智能音箱 + ESPC3 Tasmota 计量通断器方案
人工智能·智能音箱