智源Emu3.5发布:34B参数的世界模型基座,以“下一状态预测”重塑多模态Scaling范式

近日,北京智源人工智能研究院(BAAI)正式揭晓了其"悟界"系列的最新力作------Emu3.5。作为一款定位为"世界模型"基座的原生多模态大模型,Emu3.5不仅在规模上实现了从Emu3的8B到34B参数的跨越,更在核心范式、训练策略和推理效率上带来了一系列关键突破。

简单来说,Emu3.5的目标不仅仅是"看懂"图片或"生成"文字,而是学习并模拟我们所在世界的动态运行规律。其核心在于将训练目标从传统的"下一词预测(NTP)"升维至**"下一状态预测(NSP)"**,使模型能够统一理解和生成交错的图文内容,甚至预测连续的视觉序列,为长程规划与具身智能打下了基础。

为实现这一目标,研究团队为模型注入了相当于790年时长 的互联网视频数据进行预训练,让其从海量的时空动态中学习物理常识。更令人瞩目的是,Emu35引入了名为DiDA(离散扩散自适应) 的推理加速技术,一举将自回归模型的图像生成速度提升近20倍,解决了该路线长期存在的效率瓶颈,使其在质量与速度上均可与顶级扩散模型竞争。

核心亮点

如果说其前作Emu3证明了"一个模型统一所有模态"的可能性,那么Emu3.5则是在规模、效率和能力深度上的一次质的飞跃。其核心亮点可归结为以下四大方面:

亮点一:范式升维 ------ 从"下一词预测"到"下一状态预测"
  • NSP目标 :Emu3.5 将训练目标从传统的"下一词预测(NTP)"概括为更通用的 "下一状态预测(NSP)"。这里的"状态"是一个统一的概念,可以是一个词、一个图像片段,甚至是一段视频的下一帧。

  • 根本性优势 :这使得模型能天然地处理跨模态和跨时序的序列。它不仅能为故事生成下一段文字,还能直接生成下一张配套图片;不仅能理解单张图片,还能预测一段动作的连续结果。这是其迈向"世界模型"、进行长程推理和规划的理论基础。

亮点二:数据与规模 ------ 把"世界"作为训练集
  • 规模跃迁 :模型参数从 8B 扩大到 34B ;预训练数据量级达到 >10万亿 token ,其中主力是互联网视频,累计时长约 790年,相比此前(约15年)实现了两个数量级的跨越。

  • 为什么是视频? 视频数据包含连续的帧和同步的语音/字幕,是模型学习物理动态、时空关联和因果结构的最佳素材。用如此大规模的视频训练,本质上是让模型在数字世界中"观察"和"体验"我们这个世界的运行方式,从而内化出物理直觉。
亮点三:推理革命 ------ DiDA 让自回归生成"快如扩散"
  • 速度瓶颈:纯自回归模型逐token生成图像,虽然质量高、可控性好,但速度极慢,是其主要短板。

  • DiDA 突破 :Emu3.5 引入 DiDA(离散扩散自适应) 技术,巧妙地将自回归的顺序预测过程,转化为在离散token空间上的并行去噪过程。

  • 效果 :此举实现了近20倍的图像生成加速 ,且几乎不损失质量。这使得Emu3.5成为首个在效率与质量上都能与顶级闭源扩散模型(如DALL-E 3、Midjourney)竞争的自回归方案,解决了该路线的最大痛点。

模型评测

Emu3.5 展现出的新能力,清晰地指向了其"世界模型"的定位:

原生交错生成 :可在一轮对话中,自然地实现 **"文字-图片-文字-图片"**的交替输出。这支撑了两个全新应用范式:

    • 视觉叙事:生成风格、语义连贯的多卡片图文故事。

    • 视觉指导:生成步骤化的实操教程(如烹饪、组装家具),每一步都配有准确的示意图。

世界探索与具身操作 :能根据高层指令,在虚拟环境中生成长距离、高一致性的视觉探索序列;并能将复杂的机器人任务分解为带有关键帧和语言说明的子步骤,为具身智能提供了强大的任务规划与仿真能力。

领先的性能基准 :在图像编辑、文本渲染等多项基准测试中,据报告其性能可对标Google Gemini 2.5 Flash等顶尖闭源模型,并在交错生成任务上展现出显著优势

社区地址

OpenCSG社区:https://opencsg.com/models/BAAI/Emu3.5

hf社区:https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论, 由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

相关推荐
leo_23244 分钟前
SMP(软件制作平台)到底是什么?--小视频番外篇之一
人工智能·科技创新·smp(软件制作平台)·中国语言
youcans_1 小时前
【DeepSeek 论文精读】15. DeepSeek-V3.2:开拓开源大型语言模型新前沿
论文阅读·人工智能·语言模型·智能体·deepseek
_Twink1e1 小时前
【HCIA-AIV4.0】2025题库+解析(二)
人工智能·深度学习·机器学习
新知图书1 小时前
FastGPT的特点与优势
人工智能·ai agent·智能体·大模型应用开发·大模型应用
serve the people1 小时前
PQ+IVF组合解决海量向量内存占用高和检索慢的问题
人工智能·python
on_pluto_1 小时前
【debug】解决 5070ti 与 pytorch 版本不兼容的问题
人工智能·pytorch·python
OpenCSG1 小时前
悟界Emu3.5发布:世界模型诞生,多模态进入“下一状态预测”新纪元
人工智能·开源
铅笔侠_小龙虾1 小时前
深度学习理论推导--多元线性回归
人工智能·深度学习·机器学习
腾视科技1 小时前
私有云时代来临:AI NAS如何重塑你的数字生活?
人工智能·生活