悟界Emu3.5发布:世界模型诞生,多模态进入“下一状态预测”新纪元

当大部分多模态模型还在"看图说话"或"文生图"的单任务中打转,一个能够预测世界"下一帧"会如何演变的模型,已经悄然到来。

北京智源人工智能研究院重磅发布新一代多模态基础模型------"悟界·Emu3.5" 。这不仅仅是一个更强的图像生成器,更是一个被定义为 "多模态世界大模型" 的存在。

它的革命性在于:通过在海量视频数据上端到端学习"下一状态预测",Emu3.5首次让AI获得了对物理世界动态规律的原生理解。这意味着,它不仅能生成图片,更能创作图文交织的连贯故事、提供带视觉演示的教程,甚至模拟虚拟环境,为具身智能打开一扇新的大门。

而更令人振奋的是,它一举攻克了自回归模型生成速度慢的业界难题,通过创新的DiDA技术,将图像推理速度提升了约20倍,在速度与质量上实现了对顶级模型的赶超。

这意味着,通往更通用人工智能的道路上,一个全新的"世界模型"范式,已经显现。

核心亮点

1.原生多模态与"下一状态预测"的统一架构

Emu3.5摒弃了当前主流"大语言模型(LLM)+多模态适配器"的拼凑模式,坚持了其前代模型的原生多模态(Native Multimodality) 路线。

模型基于一个参数量为340亿的稠密Transformer,将文本、图像、视频等所有模态的数据统一表征为离散的Token。其唯一训练目标,就是预测下一个Token,无论这个Token是代表文字还是图像。

下一状态预测(Next-State Prediction): 这是Emu3.5与普通生成模型的本质区别。它不仅仅是预测"下一个词"或"下一张图",而是在更抽象的层面上预测序列的"下一状态"。这种从"下一个Token预测"到"下一状态预测"的升华,使得模型能够自然地学习到现实世界中的动态、因果和时序规律,为其"世界模型"的能力奠定基础。

带来的能力跃迁: 正是这种原生统一的架构,让Emu3.5能够生成交错的多模态序列(如文字-图片-文字-图片......),从而原生支持"视觉叙事"、"视觉指导"等需要长程连贯性的复杂任务。

2.基于10万亿Token视频数据的"世界知识"内化

数据规模与质量:

模型在总量超过10万亿个多模态Token(主要来自互联网视频,总时长约790年)的数据集上进行端到端预训练。这些视频数据包含了连续的视觉帧和同步的语音文本,提供了关于世界动态变化的天然教材。

两阶段预训练:

大规模基础学习: 在10万亿Token的广阔数据上学习通用模式和规律。

高质量能力增强: 进一步在3万亿更高质、高分辨率、强标注的数据上进行训练,激发模型更精细的能力。

带来的能力跃迁: 从静态的图文对中,模型只能学到"是什么";而从海量视频序列中,Emu3.5内化了"如何变化"的知识,从而涌现出对物理规律、时空一致性和简单因果的理解,使其在"世界探索"和"具身操作"任务中表现出色。

3.DiDA------颠覆自回归模型的推理加速技术

自回归模型逐Token生成的特性导致其图像生成速度缓慢,这是其长期以来被诟病的主要缺点。Emu3.5通过创新的离散扩散自适应(Discrete Diffusion Adaptation, DiDA) 技术,彻底改变了这一局面。

核心思想:

DiDA巧妙地将扩散模型的并行去噪 思想引入到离散Token空间。它将生成过程从单向顺序预测,转变为双向并行预测

巨大优势: 这项技术在不牺牲生成质量的前提下,将单张图像的推理速度提升了约20倍 。这使得Emu3.5在生成速度上达到了与顶级扩散模型相媲美的水平,弥合了自回归模型与扩散模型之间最大的性能鸿沟

模型评测

在通用图像编辑与生成任务中,Emu3-3.5展现出令人印象深刻的精确控制与多模态指令遵循能力。它不仅能够完成开放世界的创意编辑,更能实现复杂的时空一致性操作,体现出其对视觉内容深层逻辑的理解。

尤其值得一提的是其在文字渲染方面的表现------生成的图像中文字准确清晰、自然融入画面,在多项测试中,其效果甚至超越了谷歌Gemini-2.5-Flash-Image(Nano Banana)等国际领先模型,显示出强大的技术竞争力。

社区地址

OpenCSG社区:https://opencsg.com/models/BAAI/Emu3.5

hf社区:https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论, 由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

相关推荐
NAGNIP6 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab7 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab7 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP11 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年11 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼11 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS11 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区12 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈12 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang13 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx