悟界Emu3.5发布：世界模型诞生，多模态进入“下一状态预测”新纪元

当大部分多模态模型还在"看图说话"或"文生图"的单任务中打转，一个能够预测世界"下一帧"会如何演变的模型，已经悄然到来。

北京智源人工智能研究院重磅发布新一代多模态基础模型------"悟界·Emu3.5" 。这不仅仅是一个更强的图像生成器，更是一个被定义为 "多模态世界大模型" 的存在。

它的革命性在于：通过在海量视频数据上端到端学习"下一状态预测"，Emu3.5首次让AI获得了对物理世界动态规律的原生理解。这意味着，它不仅能生成图片，更能创作图文交织的连贯故事、提供带视觉演示的教程，甚至模拟虚拟环境，为具身智能打开一扇新的大门。

而更令人振奋的是，它一举攻克了自回归模型生成速度慢的业界难题，通过创新的DiDA技术，将图像推理速度提升了约20倍，在速度与质量上实现了对顶级模型的赶超。

这意味着，通往更通用人工智能的道路上，一个全新的"世界模型"范式，已经显现。

核心亮点

1.原生多模态与"下一状态预测"的统一架构

Emu3.5摒弃了当前主流"大语言模型（LLM）+多模态适配器"的拼凑模式，坚持了其前代模型的原生多模态（Native Multimodality） 路线。

模型基于一个参数量为340亿的稠密Transformer，将文本、图像、视频等所有模态的数据统一表征为离散的Token。其唯一训练目标，就是预测下一个Token，无论这个Token是代表文字还是图像。

下一状态预测（Next-State Prediction）：这是Emu3.5与普通生成模型的本质区别。它不仅仅是预测"下一个词"或"下一张图"，而是在更抽象的层面上预测序列的"下一状态"。这种从"下一个Token预测"到"下一状态预测"的升华，使得模型能够自然地学习到现实世界中的动态、因果和时序规律，为其"世界模型"的能力奠定基础。

带来的能力跃迁： 正是这种原生统一的架构，让Emu3.5能够生成交错的多模态序列（如文字-图片-文字-图片......），从而原生支持"视觉叙事"、"视觉指导"等需要长程连贯性的复杂任务。

2.基于10万亿Token视频数据的"世界知识"内化

数据规模与质量：

模型在总量超过10万亿个多模态Token（主要来自互联网视频，总时长约790年）的数据集上进行端到端预训练。这些视频数据包含了连续的视觉帧和同步的语音文本，提供了关于世界动态变化的天然教材。

两阶段预训练：

大规模基础学习：在10万亿Token的广阔数据上学习通用模式和规律。

高质量能力增强：进一步在3万亿更高质、高分辨率、强标注的数据上进行训练，激发模型更精细的能力。

带来的能力跃迁： 从静态的图文对中，模型只能学到"是什么"；而从海量视频序列中，Emu3.5内化了"如何变化"的知识，从而涌现出对物理规律、时空一致性和简单因果的理解，使其在"世界探索"和"具身操作"任务中表现出色。

3.DiDA------颠覆自回归模型的推理加速技术

自回归模型逐Token生成的特性导致其图像生成速度缓慢，这是其长期以来被诟病的主要缺点。Emu3.5通过创新的离散扩散自适应（Discrete Diffusion Adaptation, DiDA） 技术，彻底改变了这一局面。

核心思想：

DiDA巧妙地将扩散模型的并行去噪 思想引入到离散Token空间。它将生成过程从单向顺序预测，转变为双向并行预测。

巨大优势：这项技术在不牺牲生成质量的前提下，将单张图像的推理速度提升了约20倍 。这使得Emu3.5在生成速度上达到了与顶级扩散模型相媲美的水平，弥合了自回归模型与扩散模型之间最大的性能鸿沟。

模型评测

在通用图像编辑与生成任务中，Emu3-3.5展现出令人印象深刻的精确控制与多模态指令遵循能力。它不仅能够完成开放世界的创意编辑，更能实现复杂的时空一致性操作，体现出其对视觉内容深层逻辑的理解。

尤其值得一提的是其在文字渲染方面的表现------生成的图像中文字准确清晰、自然融入画面，在多项测试中，其效果甚至超越了谷歌Gemini-2.5-Flash-Image（Nano Banana）等国际领先模型，显示出强大的技术竞争力。

社区地址

OpenCSG社区：https://opencsg.com/models/BAAI/Emu3.5

hf社区：https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论， 由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。