悟界Emu3.5发布:世界模型诞生,多模态进入“下一状态预测”新纪元

当大部分多模态模型还在"看图说话"或"文生图"的单任务中打转,一个能够预测世界"下一帧"会如何演变的模型,已经悄然到来。

北京智源人工智能研究院重磅发布新一代多模态基础模型------"悟界·Emu3.5" 。这不仅仅是一个更强的图像生成器,更是一个被定义为 "多模态世界大模型" 的存在。

它的革命性在于:通过在海量视频数据上端到端学习"下一状态预测",Emu3.5首次让AI获得了对物理世界动态规律的原生理解。这意味着,它不仅能生成图片,更能创作图文交织的连贯故事、提供带视觉演示的教程,甚至模拟虚拟环境,为具身智能打开一扇新的大门。

而更令人振奋的是,它一举攻克了自回归模型生成速度慢的业界难题,通过创新的DiDA技术,将图像推理速度提升了约20倍,在速度与质量上实现了对顶级模型的赶超。

这意味着,通往更通用人工智能的道路上,一个全新的"世界模型"范式,已经显现。

核心亮点

1.原生多模态与"下一状态预测"的统一架构

Emu3.5摒弃了当前主流"大语言模型(LLM)+多模态适配器"的拼凑模式,坚持了其前代模型的原生多模态(Native Multimodality) 路线。

模型基于一个参数量为340亿的稠密Transformer,将文本、图像、视频等所有模态的数据统一表征为离散的Token。其唯一训练目标,就是预测下一个Token,无论这个Token是代表文字还是图像。

下一状态预测(Next-State Prediction): 这是Emu3.5与普通生成模型的本质区别。它不仅仅是预测"下一个词"或"下一张图",而是在更抽象的层面上预测序列的"下一状态"。这种从"下一个Token预测"到"下一状态预测"的升华,使得模型能够自然地学习到现实世界中的动态、因果和时序规律,为其"世界模型"的能力奠定基础。

带来的能力跃迁: 正是这种原生统一的架构,让Emu3.5能够生成交错的多模态序列(如文字-图片-文字-图片......),从而原生支持"视觉叙事"、"视觉指导"等需要长程连贯性的复杂任务。

2.基于10万亿Token视频数据的"世界知识"内化

数据规模与质量:

模型在总量超过10万亿个多模态Token(主要来自互联网视频,总时长约790年)的数据集上进行端到端预训练。这些视频数据包含了连续的视觉帧和同步的语音文本,提供了关于世界动态变化的天然教材。

两阶段预训练:

大规模基础学习: 在10万亿Token的广阔数据上学习通用模式和规律。

高质量能力增强: 进一步在3万亿更高质、高分辨率、强标注的数据上进行训练,激发模型更精细的能力。

带来的能力跃迁: 从静态的图文对中,模型只能学到"是什么";而从海量视频序列中,Emu3.5内化了"如何变化"的知识,从而涌现出对物理规律、时空一致性和简单因果的理解,使其在"世界探索"和"具身操作"任务中表现出色。

3.DiDA------颠覆自回归模型的推理加速技术

自回归模型逐Token生成的特性导致其图像生成速度缓慢,这是其长期以来被诟病的主要缺点。Emu3.5通过创新的离散扩散自适应(Discrete Diffusion Adaptation, DiDA) 技术,彻底改变了这一局面。

核心思想:

DiDA巧妙地将扩散模型的并行去噪 思想引入到离散Token空间。它将生成过程从单向顺序预测,转变为双向并行预测

巨大优势: 这项技术在不牺牲生成质量的前提下,将单张图像的推理速度提升了约20倍 。这使得Emu3.5在生成速度上达到了与顶级扩散模型相媲美的水平,弥合了自回归模型与扩散模型之间最大的性能鸿沟

模型评测

在通用图像编辑与生成任务中,Emu3-3.5展现出令人印象深刻的精确控制与多模态指令遵循能力。它不仅能够完成开放世界的创意编辑,更能实现复杂的时空一致性操作,体现出其对视觉内容深层逻辑的理解。

尤其值得一提的是其在文字渲染方面的表现------生成的图像中文字准确清晰、自然融入画面,在多项测试中,其效果甚至超越了谷歌Gemini-2.5-Flash-Image(Nano Banana)等国际领先模型,显示出强大的技术竞争力。

社区地址

OpenCSG社区:https://opencsg.com/models/BAAI/Emu3.5

hf社区:https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论, 由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

相关推荐
K姐研究社2 小时前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
传说故事3 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
小鹏linux3 小时前
Ubuntu 22.04 部署开源免费具有精美现代web页面的Casdoor账号管理系统
linux·前端·ubuntu·开源·堡垒机
北京耐用通信3 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区3 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤3 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水4 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
Upsy-Daisy4 小时前
AI Agent 项目学习笔记(八):Tool Calling 工具调用机制总览
人工智能·笔记·学习
企学宝4 小时前
企学宝5月专题课程丨《OpenClaw AI 智能体实战营:从零基础部署到全场景自动化落地》
人工智能·ai·企业培训