冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!

Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。

从演示效果看,Gemini Diffusion 也确实快 ------「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」

那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码环境中。

用户输入「Explain what artificial intelligence is」时,扩散语言模型 LLaDA 生成响应的过程,可以看到其生成方式与从左到右的自回归模型有明显差别。

但遗憾的是,截至目前,Gemini Diffusion 都还没有真正问世,感兴趣的用户也还只得在 waitlist 中继续等待。但是,其实早在 Gemini Diffusion 问世之前几年,就已经有一些研究团队在探索扩散式 LLM 的可行性了,并研发出了扩散语言模型。

比如斯坦福大学 2022 年提出的 Diffusion-LM 在细粒度的复杂生成控制方面取得了重要进步;同年,上海 AI 实验室提出了首个专为序列到序列(Seq2Seq)任务设计的扩散模型 DiffuSeq,而复旦大学则将扩散过程与 BERT 模型相结合创造了 DiffusionBERT。之后还有人大高瓴人工智能学院李崇轩团队对掩码式扩散模型在文本建模上的 Scaling Law 的研究。

一直到今年二月份,蚂蚁集团和中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队推出了首个 8B 参数量的扩散大语言模型 LLaDA。凭借比肩同规模 LLaMA 3 的性能,LLaDA 备受关注。不仅如此,该模型也是国内率先做到真正可用的扩散语言模型,并在相关研究领域产生了巨大影响,甚至成为了许多相关研究所使用的基础模型 ------ 后续的 d1、LaViDa 和 LLaDOU 都采用了 LLaDA 作为基础或主干模型。

有意思的是,就在 LLaDA 诞生之后几天,硅谷的一家初创公司 Inception Labs 正式从隐身模式中浮出水面,研发的「首个商业级扩散大型语言模型」Mercury 问世了。AI 社区对扩散式 LLM 的关注也随之迎来了一波小高潮。

在这期间,相关研究层出不穷,包括将自回归与扩散模型融合的 Block Diffusion 和 CtrlDiff、通过 KV Cache 和并行解码实现 dLLM 无训练加速的 Fast-dLLM、基于傅里叶变换的状态扩散语言模型 SFDLM、香港大学和华为发布的 Dream 7B、使用横向思维扩散链(DCoLT)增强扩散语言模型推理能力的 LLaDOU 以及我们曾报道过的来自 UCLA 和 Meta 的 d1 模型 ------ 其通过监督微调和强化学习(diffu-GRPO 算法),扩展了 dLLM 的推理能力,尤其是在数学和逻辑推理任务上的表现。

以 LLaDA 为基础模型开发的 d1-LLaDA 在多个数学和逻辑推理任务上都获得了明显提升,来自论文 arXiv:2504.12216

当然,谷歌 5 月份发布的 Gemini Diffusion 绝对算得上是 dLLM 领域的一大盛事,而其给人最直观的第一印象就一个字:「快」。其排除额外开销后的采样速度可以达到惊人的每秒 1479 token。而 Gemini Diffusion 还不只是快,其在多个基准上的表现可媲美大得多的自回归模型 Gemini 2.0 Flash-Lite,彰显了 dLLM 的巨大潜力。

而在 dLLM 研究发展的基础上,我们也看到了 dMLLM(扩散式多模态 LLM)研究正在爆发,其中最典型的代表莫过于蚂蚁集团与人大基于 LLaDA 模型开发的多模态扩散大语言模型 LLaDA-V 和字节跳动开发的多模态扩散大语言模型 MMaDA。

其它一些研究同样非常值得关注,包括来自新加坡国立大学的首个离散 dMLLM Dimple、来自 UCLA 等的 LaViDa。

可以说,MMaDA 与 LLaDA 系列模型一起,表明在扩散语言模型这个赛道上,国内的研究团队已经跻身第一梯度。我们也非常期待蚂蚁集团和字节跳动接下来在这个方向上的进一步探索。

下面,我们首先将以 LLaDA 为例,展现当前扩散式 LLM 的工作原理;之后我们会深入多模态的领域,带你一窥当前扩散式多模态 LLM(dMLLM)研究成果所昭示的光明未来。在这个未来里,你说不定还能看见 AGI 的影子。

扩散式 LLM 的工作原理

------ 以 LLaDA 为例

不管是扩散式 LLM 还是自回归 LLM,其实都是生成式模型。而本质上讲,生成模型是对高维概率分布 P_θ 进行建模,旨在优化 P_θ 与 P_data 间的某种距离。这个过程通常包含三大要素,即网络结构(MLP、CNN、RNN、Transformer)、规模扩展(模型、数据、计算)、概率建模方法(VAE、GAN、Flow、自回归、扩散模型)。

更具体而言,自回归模型是使用链式发展来拆分概率分布 P_θ,而扩散模型则是借助随机微分方程,通过前向加噪和反向去噪过程建模联合概率 P_θ。

LLaDA 团队观察到:当前主流大语言模型普遍采用极大似然估计训练网络,而极大似然估计等价于最小化真实数据分布与模型分布的 KL 散度。他们认为:「大模型的诸多优良性质源于极大似然估计本身,而非自回归建模方式。」

基于这一见解,该团队探索了「扩散模型」这一已经在视觉生成领域取得显著成功的范式,看其能否在语言任务上得同样的成功。他们进一步观察到,对于自回归语言模型成功的要素,扩散模型同样也具备,包括卓越的可扩展性、指令遵从和上下文学习能力、「压缩即智能」的理论基础。

基于这些观察,人大和蚂蚁集团提出了 LLaDA,即 Large Language Diffusion with mAsking,下图展示了其一些概念。

LLaDA 架构的概念性说明,其中 (a) 是预训练,(b) 为 SFT,(c) 则是采样过程,来自论文 arXiv:2502.09992

其中,在预训练过程中,LLaDA 会基于文本进行训练,并且这些文本都带有随机掩码 ------ 以相同的比例独立应用于所有 token。在接下来的 SFT 阶段,则被遮掩的只有 response,该阶段的目标是提升模型的指令遵从能力。而在采样阶段,LLaDA 模拟从 t = 1(全掩码)到 t = 0(无掩码)的扩散过程,并在每一步,模型预测所有被掩码 token 后,会按一定比例对部分预测结果进行再掩码(remask),以保证反向过程与前向过程一致。

对这些过程更详细的数学描述可参阅我们之前的报道《语言模型新范式:首个 8B 扩散大语言模型 LLaDA 发布,性能比肩 LLaMA 3》或原论文。

预训练后的 LLaDA 8B 的实验表现足以比肩同等规模下的 LLaMA3,来自论文 arXiv:2502.09992

经过后训练的 LLaDA 8B 也有同样表现,来自论文 arXiv:2502.09992

LLaDA 首次表明:通过前向掩码加噪与反向去噪机制,同样可以实现大语言模型的核心能力。

此后,LLaDA 逐渐发展成了 dLLM 研究的常用基础模型之一,比如前文提到的 d1、LaViDa 和 LLaDOU 以及近期 Meta 刚发布的新研究 EB-Sampler,一种通过 Entropy Bounded Unmasking 加速掩码式扩散模型的采样过程的技术。

事实上,掩码式扩散语言模型的有效性已经得到了一些理论证明,比如论文《A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective》从信息论的角度对扩散语言模型的收敛性进行了理论分析,为扩散语言模型的实际有效性提供了新的理论见解。而北京大学和蚂蚁集团的论文《Theoretical Benefit and Limitation of Diffusion Language Model》更是从理论上剖析了 dLLM 的优势和局限。

同时,LLaDA 本身也在不断演进。5 月下旬,LLaDA 1.5 问世,其有效整合了新提出的 Variance-Reduced Preference Optimization(VRPO)方法 ,在多个数学和对齐基准上都取得了显著进步。简单来说,VRPO 旨在降低偏好得分估计器的方差,从而减轻整体偏好优化中的偏差和方差。

LLaDA 1.5 相比 LLaDA 进步明显,来自论文 arXiv:2505.19223

另一方面,dLLM 也在不断地扩展自己的能力边界,尤其是在多模态能力方面 ------ 本就已经在视觉生成任务上表现优异的扩散模型也开始通过视觉理解这个世界。

扩散式多模态 LLM

机器理解绚丽世界的另一种方式

目前,扩散式多模态 LLM(dMLLM)还主要集中在文本模态的基础上增加视觉模态。其中,来自人大和蚂蚁集团的 LLaDA-V 可说是最典型的代表(实际上 LLaDA-V 中的 V 便是指视觉 /vision)。

LLaDA-V 是一种集成了视觉指令微调的纯扩散多模态大语言模型,其核心在于将视觉指令微调框架与 LLaDA 的掩码扩散机制相结合。下图展示了 LLaDA-V 的训练和推理过程。

b 和 c 分别展示了 LLaDA-V 的训练和推理过程,而 a 则是自回归训练

架构上,LLaDA-V 采用了经典的「视觉编码器 + MLP 投影器 + 语言模型」架构。视觉编码器(SigLIP 2)的作用是提取图像特征,MLP 投影器再将其映射到 LLaDA 的嵌入空间,LLaDA 语言模型则负责处理融合后的多模态输入并生成回复。尤其需要注意,LLaDA-V 采用了双向注意力机制。这允许模型在预测时全面理解对话上下文,这在消融实验中被证明略优于对话因果注意力机制。

为了支持多轮多模态对话,LLaDA-V 的训练目标在 LLaDA 的训练目标的基础上进行了扩展,以支持多轮多模态对话。其核心思想是在训练时保持图像特征和用户提示,仅对模型的 response 进行随机掩码,训练目标仅对被掩码部分计算交叉熵损失。

在执行推理时,LLaDA-V 由于是扩散模型,因此其生成过程并非自回归式的逐词预测,而是通过扩散模型的反向去噪过程。从一个完全被掩码的回复开始,模型在多个步骤中迭代地预测被掩码的 token,逐步恢复出完整的回复。研究采用了 LLaDA 的低置信度重掩码策略,优先保留高置信度的预测,以提升生成质量。

整体而言,LLaDA-V 成功地将视觉指令微调与掩码扩散模型相结合,证明了扩散模型不仅能在语言任务上与自回归模型一较高下,在多模态理解领域同样展现出强大的竞争力和独特的优势,尤其是在数据可扩展性方面。

LLaDA-V 的基准测试结果,来自论文 arXiv: 2505.16933

对 LLaDA-V 模型的更多介绍可以参看我们之前的报道《舍弃自回归!国内团队打造纯扩散多模态大模型 LLaDA-V,理解任务新 SOTA》。

当然,除了 LLaDA-V,近期也诞生了其它一些非常值得关注的 dMLLM。

这里来重点看看字节跳动开发的 MMaDA,其兼具文本推理、多模态理解和文生图三种能力。该方法具有三大关键创新:采用了统一的扩散架构、实现了一种混合长思维链(CoT)微调策略、提出了一种基于策略梯度的统一强化学习算法 UniGRPO。

MMaDA 的训练和推理流程概况,来自论文 arXiv: 2505.15809

这些创新造就了 MMaDA 在多种任务上的强势表现,这也使其成为了当前 dMLLM 领域最具代表性的研究成果之一。

MMaDA 执行文本推理任务示例,来自论文 arXiv: 2505.15809

当然,除了视觉模态,dLLM 也正在向其它更多模态推进,其中尤其值得一提的是扩散蛋白质语言模型(DPLM)。该研究也来自字节跳动,可以无条件地生成结构合理、新颖且多样化的蛋白质序列。另外,DPLM 还可根据各种需求进行定制,并展现出了强大的条件生成能力。

作为当前生成式 AI 的前沿方向,dMLLM 相关研究正迅速积累。LLaDA-V 和 MMaDA 作为杰出代表,也代表了国内在这一研究方向上的前沿探索水平。期待这一范式早日迈入真实应用场景。

智能的范式不会固定

AI 也将继续扩散

从视觉生成到语言理解,再到多模态交互,扩散模型正逐步走出「图像领域的舒适区」,成为通用智能的新基底。在自回归模型主导 AI 叙事数年的当下,这种技术范式的更迭并非轻易之举,它意味着思路的反转、范式的颠覆,也意味着更大的挑战与更远的可能。

LLaDA 系列模型、MMaDA 和即将问世的 Gemini Diffusion 是这一技术路径从可能性走向现实性的关键一跃。它们不仅验证了掩码式扩散机制在语言和多模态任务上的有效性,也为整个 AI 社区提供了更加多元和可扩展的研究方向。我们看到,越来越多的团队开始围绕 dLLM 与 dMLLM 展开尝试,构建起一个不断扩展的模型生态。事实上,甚至已经有研究团队尝试将量子计算与扩散语言模型进行整合并开发出了所谓的 Quantum-Diffusion LLM(qdLLM)。这种扩散模型的扩散,似乎本身就预示着某种更具生命力的未来。

我们始终相信,AI 的发展从来不是一条直线。范式的演进,是一次次对既有认知的突破。在扩散的光谱中,或许我们尚未抵达最终形态,但每一次掩码与解码之间的跳跃,都是通往通用智能世界的回声。

未来已在扩散中生成,下一代智能的曙光,也许正藏在每一个逐步去噪的片段里。

相关推荐
张较瘦_10 分钟前
[论文阅读] 人工智能 | 用大语言模型抓虫:如何让网络协议实现与RFC规范对齐
论文阅读·人工智能·语言模型
qb_jiajia16 分钟前
微软认证考试科目众多?该如何选择?
人工智能·microsoft·微软·云计算
pen-ai29 分钟前
【统计方法】蒙特卡洛
人工智能·机器学习·概率论
说私域35 分钟前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的生态农庄留存运营策略研究
人工智能·小程序·开源·零售
摘取一颗天上星️43 分钟前
大模型微调技术全景图:从全量更新到参数高效适配
人工智能·深度学习·机器学习
要努力啊啊啊1 小时前
策略梯度核心:Advantage 与 GAE 原理详解
论文阅读·人工智能·深度学习·自然语言处理
AI航海家(Ethan)1 小时前
RAG技术解析:实现高精度大语言模型知识增强
人工智能·语言模型·自然语言处理
soldierluo1 小时前
AI基础知识(LLM、prompt、rag、embedding、rerank、mcp、agent、多模态)
人工智能·prompt·embedding
AWS官方合作商4 小时前
Amazon Augmented AI:人类智慧与AI协作,破解机器学习审核难题
人工智能·机器学习·aws
人工智能小豪10 小时前
2025年大模型平台落地实践研究报告|附75页PDF文件下载
大数据·人工智能·transformer·anythingllm·ollama·大模型应用