LLaDA2.0：蚂蚁开源业内首个 100B 扩散语言模型

传统扩散模型最早用于图像生成（比如 Stable Diffusion），其原理是从纯噪声开始，通过多步"去噪"逐步还原出清晰内容。过去人们认为这种机制难以用于离散的文本（因为文字不像像素可微）。

LLaDA2.0 是蚂蚁集团推出的一系列基于扩散机制的大语言模型，年初还是个小众方向的「扩散语言模型（dLLM）」，现在已经被扩展到千亿参数的规模了。和传统语言模型（比如 LLaMA）逐字生成文本不同，它能一次性并行生成多个词，速度更快------实测推理速度达到 535 tokens/秒，比同级别自回归模型快 2.1 倍；它包含 16B 的 mini 版和 100B 的 flash 版（采用 MoE 架构），是全球首个突破百亿参数的扩散语言模型，在代码生成、数学和智能体任务上表现尤为出色；更关键的是，它通过创新的训练方法复用已有模型的知识，避免从头训练，并已将全部模型权重和代码以 Apache 2.0 协议开源，真正把扩散语言模型从理论带入了实际应用。

性能亮点

领先的 MoE 架构 ：开源的 混合专家（MoE）扩散大型语言模型 在 Ling2.0 系列上持续训练，使用了大约 20 万亿个标记。
高效的推理 ： flash版虽然总参数量为 1000 亿 ，但在推理过程中仅激活 61 亿 参数。LLaDA2.0-flash 显著降低了计算成本，同时超越了类似规模的开源密集型模型。
在代码和复杂推理任务上的出色表现 ：在诸如 代码生成 和 高级数学推理 等任务中表现出色，展示了强大的推理能力。
工具使用 ：支持 工具调用 并在复杂的基于代理的任务中表现出色。
开放与可扩展性 ：完全开源并致力于透明度。我们计划在未来发布一个 领先的推理框架 ，并继续投资于前沿领域如 扩散大语言模型 (dLLM) 以推动颠覆性创新。

训练过程

LLaDA2.0 无需代价高昂的从头训练，而是秉持知识继承、渐进式适应与效率优先的设计原则，利用一种新颖的三阶段、基于块级权重空间分解（WSD）的训练方案，将预训练的 AR 模型无缝转换为 dLLM：第一阶段为块扩散中的块尺寸逐步增大（预热阶段），第二阶段为大规模全序列扩散（稳定阶段），第三阶段则回退至紧凑块尺寸的扩散（衰减阶段）。结合后续基于监督微调（SFT）和直接偏好优化（DPO）的对齐训练，我们得到了两个面向实际部署优化的指令微调版混合专家（MoE）模型：LLaDA2.0-mini（160 亿参数）和 LLaDA2.0-flash（1000 亿参数）。这些模型保留了并行解码的优势，在前沿规模下实现了卓越的性能与效率。两个模型均已开源。

Benchmark Performance of LLaDA2.0

LLaDA2.0-flash

基准	Qwen3-30B-A3B-Instruct-2507	Ling-flash-2.0	LLaDA2.0-flash-preview	LLaDA2.0-flash
平均	79.47	78.03	71.92	79.32
知识
MMLU	87.13	87.98	83.15	87.69
MMLU-Pro	74.23	76.84	49.22	73.36
GPQA	57.34	67.12	46.59	61.98
arc-c	95.81	95.08	93.90	95.93
CMMLU	86.36	86.59	67.53	85.13
C-EVAL	88.17	88.03	66.54	86.75
GAOKAO-Bench	94.53	93.24	86.12	93.90
推理
SQuAD 2.0	89.51	81.32	85.61	90.00
DROP	87.57	88.32	79.49	87.90
KOR-Bench	68.00	68.96	37.26	64.24
HellaSwag	86.31	81.59	86.00	84.97
编码
CRUXEval-O	86.75	82.75	61.88	85.12
MBPP	86.65	85.01	77.75	88.29
MultiPL-E	70.67	65.76	62.43	74.87
HumanEval	93.29	85.98	80.49	94.51
Bigcodebench-Full	41.49	40.70	30.44	41.58
LiveCodeBench	41.63	44.11	28.58	42.29
Spider	81.79	80.58	81.37	82.49
数学
GSM8K	96.36	95.45	89.01	96.06
MATH	96.70	96.1	73.50	95.44
OlympiadBench	77.59	76.19	47.78	74.07
AIME 2025	61.88	55.89	23.33	60.00
代理与对齐
BFCL_Live	73.19	67.57	74.11	75.43
IFEval-strict -prompt	84.29	81.52	62.50	81.70

LLaDA2.0-mini

基准	Qwen3-8B (无思考)	Ling-mini-2.0	LLaDA2.0-mini-preview	LLaDA2.0-mini
平均	70.19	72.13	61.75	71.67
知识
MMLU	80.94	82.15	72.49	80.53
MMLU-Pro	65.48	63.72	49.22	63.22
GPQA	46.59	56.80	31.82	47.98
arc-c	93.35	93.09	89.15	93.56
CMMLU	79.17	80.84	67.53	79.50
C-EVAL	81.36	82.10	66.54	81.38
GAOKAO-Bench	84.94	87.23	74.46	84.30
推理
SQuAD 2.0	85.21	75.56	85.61	86.50
DROP	84.56	78.80	79.49	81.91
KOR-Bench	54.48	62.72	37.26	50.40
HellaSwag	79.56	69.02	74.01	79.01
编码
CRUXEval-O	74.06	76.12	61.88	71.62
MBPP	78.92	84.07	77.75	81.50
MultiPL-E	61.7	67.09	62.43	67.46
HumanEval	84.76	85.98	80.49	86.59
BigCodeBench-Full	36.05	35.00	30.44	32.89
LiveCodeBench	26.38	34.97	19.93	31.50
Spider	72.80	76.43	75.64	76.76
数学
GSM8K	93.63	94.62	89.01	94.24
MATH	86.28	94.66	73.50	93.22
OlympiadBench	55.33	72.30	36.67	67.70
AIME 2025	22.08	47.66	10.00	36.67
代理与对齐
BFCL_Live	70.08	53.98	74.11	70.90
IFEval-strict -prompt	86.9	76.16	62.50	80.78

大模型相关课程：