悟界Emu3.5发布:世界模型诞生,多模态进入“下一状态预测”新纪元

当大部分多模态模型还在"看图说话"或"文生图"的单任务中打转,一个能够预测世界"下一帧"会如何演变的模型,已经悄然到来。

北京智源人工智能研究院重磅发布新一代多模态基础模型------"悟界·Emu3.5" 。这不仅仅是一个更强的图像生成器,更是一个被定义为 "多模态世界大模型" 的存在。

它的革命性在于:通过在海量视频数据上端到端学习"下一状态预测",Emu3.5首次让AI获得了对物理世界动态规律的原生理解。这意味着,它不仅能生成图片,更能创作图文交织的连贯故事、提供带视觉演示的教程,甚至模拟虚拟环境,为具身智能打开一扇新的大门。

而更令人振奋的是,它一举攻克了自回归模型生成速度慢的业界难题,通过创新的DiDA技术,将图像推理速度提升了约20倍,在速度与质量上实现了对顶级模型的赶超。

这意味着,通往更通用人工智能的道路上,一个全新的"世界模型"范式,已经显现。

核心亮点

1.原生多模态与"下一状态预测"的统一架构

Emu3.5摒弃了当前主流"大语言模型(LLM)+多模态适配器"的拼凑模式,坚持了其前代模型的原生多模态(Native Multimodality) 路线。

模型基于一个参数量为340亿的稠密Transformer,将文本、图像、视频等所有模态的数据统一表征为离散的Token。其唯一训练目标,就是预测下一个Token,无论这个Token是代表文字还是图像。

下一状态预测(Next-State Prediction): 这是Emu3.5与普通生成模型的本质区别。它不仅仅是预测"下一个词"或"下一张图",而是在更抽象的层面上预测序列的"下一状态"。这种从"下一个Token预测"到"下一状态预测"的升华,使得模型能够自然地学习到现实世界中的动态、因果和时序规律,为其"世界模型"的能力奠定基础。

带来的能力跃迁: 正是这种原生统一的架构,让Emu3.5能够生成交错的多模态序列(如文字-图片-文字-图片......),从而原生支持"视觉叙事"、"视觉指导"等需要长程连贯性的复杂任务。

2.基于10万亿Token视频数据的"世界知识"内化

数据规模与质量:

模型在总量超过10万亿个多模态Token(主要来自互联网视频,总时长约790年)的数据集上进行端到端预训练。这些视频数据包含了连续的视觉帧和同步的语音文本,提供了关于世界动态变化的天然教材。

两阶段预训练:

大规模基础学习: 在10万亿Token的广阔数据上学习通用模式和规律。

高质量能力增强: 进一步在3万亿更高质、高分辨率、强标注的数据上进行训练,激发模型更精细的能力。

带来的能力跃迁: 从静态的图文对中,模型只能学到"是什么";而从海量视频序列中,Emu3.5内化了"如何变化"的知识,从而涌现出对物理规律、时空一致性和简单因果的理解,使其在"世界探索"和"具身操作"任务中表现出色。

3.DiDA------颠覆自回归模型的推理加速技术

自回归模型逐Token生成的特性导致其图像生成速度缓慢,这是其长期以来被诟病的主要缺点。Emu3.5通过创新的离散扩散自适应(Discrete Diffusion Adaptation, DiDA) 技术,彻底改变了这一局面。

核心思想:

DiDA巧妙地将扩散模型的并行去噪 思想引入到离散Token空间。它将生成过程从单向顺序预测,转变为双向并行预测

巨大优势: 这项技术在不牺牲生成质量的前提下,将单张图像的推理速度提升了约20倍 。这使得Emu3.5在生成速度上达到了与顶级扩散模型相媲美的水平,弥合了自回归模型与扩散模型之间最大的性能鸿沟

模型评测

在通用图像编辑与生成任务中,Emu3-3.5展现出令人印象深刻的精确控制与多模态指令遵循能力。它不仅能够完成开放世界的创意编辑,更能实现复杂的时空一致性操作,体现出其对视觉内容深层逻辑的理解。

尤其值得一提的是其在文字渲染方面的表现------生成的图像中文字准确清晰、自然融入画面,在多项测试中,其效果甚至超越了谷歌Gemini-2.5-Flash-Image(Nano Banana)等国际领先模型,显示出强大的技术竞争力。

社区地址

OpenCSG社区:https://opencsg.com/models/BAAI/Emu3.5

hf社区:https://huggingface.co/BAAI/Emu3.5

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论, 由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

相关推荐
算法与编程之美2 分钟前
不同的优化器对分类精度的影响以及损失函数对分类精度的影响.
人工智能·算法·机器学习·分类·数据挖掘
Black蜡笔小新2 分钟前
户外无电无网视频汇聚平台EasyCVR太阳能4G视频监控解决方案
人工智能
sali-tec3 分钟前
C# 基于halcon的视觉工作流-章71 深度学习-预处理OCR
开发语言·人工智能·深度学习·数码相机·算法·计算机视觉·ocr
xzl045 分钟前
当使用 AutoTokenizer 加载百川(Baichuan)模型时出现 BaiChuanTokenizer 相关报错
人工智能·pytorch·python
yangshuo12816 分钟前
心灵宝石MCP部署完全指南:AI IDE积分零损耗的实现方案
ide·人工智能·microsoft
L.fountain7 分钟前
图像自回归生成(Auto-regressive image generation)实战学习(三)
人工智能·深度学习·学习·回归
咕噜企业分发小米8 分钟前
腾讯云知识图谱实体链接的准确率如何评估?
人工智能·算法·机器学习
前端程序猿之路9 分钟前
简易版AI知识助手项目 - 构建个人文档智能问答系统
前端·人工智能·python·ai·语言模型·deepseek·rag agent
geneculture9 分钟前
融智学:重构认知与实践的智慧体系
大数据·人工智能·融智学的重要应用·信智序位·人类智力·融智时代(杂志)
skywalk81639 分钟前
Kitten TTS是一个开源的现实文本到语音模型,只有1500万个参数,专为轻量级部署和高质量语音合成而设计(截止0.2未发布版,不支持中文)
开源·语音·tt