智源Emu3.5发布：34B参数的世界模型基座，以“下一状态预测”重塑多模态Scaling范式

近日，北京智源人工智能研究院（BAAI）正式揭晓了其"悟界"系列的最新力作------Emu3.5。作为一款定位为"世界模型"基座的原生多模态大模型，Emu3.5不仅在规模上实现了从Emu3的8B到34B参数的跨越，更在核心范式、训练策略和推理效率上带来了一系列关键突破。

简单来说，Emu3.5的目标不仅仅是"看懂"图片或"生成"文字，而是学习并模拟我们所在世界的动态运行规律。其核心在于将训练目标从传统的"下一词预测（NTP）"升维至**"下一状态预测（NSP）"**，使模型能够统一理解和生成交错的图文内容，甚至预测连续的视觉序列，为长程规划与具身智能打下了基础。

为实现这一目标，研究团队为模型注入了相当于790年时长 的互联网视频数据进行预训练，让其从海量的时空动态中学习物理常识。更令人瞩目的是，Emu35引入了名为DiDA（离散扩散自适应） 的推理加速技术，一举将自回归模型的图像生成速度提升近20倍，解决了该路线长期存在的效率瓶颈，使其在质量与速度上均可与顶级扩散模型竞争。

核心亮点

如果说其前作Emu3证明了"一个模型统一所有模态"的可能性，那么Emu3.5则是在规模、效率和能力深度上的一次质的飞跃。其核心亮点可归结为以下四大方面：

亮点一：范式升维 ------ 从"下一词预测"到"下一状态预测"

NSP目标 ：Emu3.5 将训练目标从传统的"下一词预测（NTP）"概括为更通用的 "下一状态预测（NSP）"。这里的"状态"是一个统一的概念，可以是一个词、一个图像片段，甚至是一段视频的下一帧。
根本性优势 ：这使得模型能天然地处理跨模态和跨时序的序列。它不仅能为故事生成下一段文字，还能直接生成下一张配套图片；不仅能理解单张图片，还能预测一段动作的连续结果。这是其迈向"世界模型"、进行长程推理和规划的理论基础。

亮点二：数据与规模 ------ 把"世界"作为训练集

规模跃迁 ：模型参数从 8B 扩大到 34B ；预训练数据量级达到 >10万亿 token ，其中主力是互联网视频，累计时长约 790年，相比此前（约15年）实现了两个数量级的跨越。

为什么是视频？ 视频数据包含连续的帧和同步的语音/字幕，是模型学习物理动态、时空关联和因果结构的最佳素材。用如此大规模的视频训练，本质上是让模型在数字世界中"观察"和"体验"我们这个世界的运行方式，从而内化出物理直觉。

亮点三：推理革命 ------ DiDA 让自回归生成"快如扩散"

速度瓶颈：纯自回归模型逐token生成图像，虽然质量高、可控性好，但速度极慢，是其主要短板。
DiDA 突破 ：Emu3.5 引入 DiDA（离散扩散自适应） 技术，巧妙地将自回归的顺序预测过程，转化为在离散token空间上的并行去噪过程。
效果：此举实现了近20倍的图像生成加速 ，且几乎不损失质量。这使得Emu3.5成为首个在效率与质量上都能与顶级闭源扩散模型（如DALL-E 3、Midjourney）竞争的自回归方案，解决了该路线的最大痛点。

模型评测

Emu3.5 展现出的新能力，清晰地指向了其"世界模型"的定位：

原生交错生成 ：可在一轮对话中，自然地实现 **"文字-图片-文字-图片"**的交替输出。这支撑了两个全新应用范式：

- 视觉叙事：生成风格、语义连贯的多卡片图文故事。
- 视觉指导：生成步骤化的实操教程（如烹饪、组装家具），每一步都配有准确的示意图。

世界探索与具身操作 ：能根据高层指令，在虚拟环境中生成长距离、高一致性的视觉探索序列；并能将复杂的机器人任务分解为带有关键帧和语言说明的子步骤，为具身智能提供了强大的任务规划与仿真能力。

领先的性能基准 ：在图像编辑、文本渲染等多项基准测试中，据报告其性能可对标Google Gemini 2.5 Flash等顶尖闭源模型，并在交错生成任务上展现出显著优势

社区地址

OpenCSG社区：https://opencsg.com/models/BAAI/Emu3.5

hf社区：https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论， 由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。