LLaDA2.0:蚂蚁开源业内首个 100B 扩散语言模型

传统扩散模型最早用于图像生成(比如 Stable Diffusion),其原理是从纯噪声开始,通过多步"去噪"逐步还原出清晰内容。过去人们认为这种机制难以用于离散的文本(因为文字不像像素可微)。

LLaDA2.0 是蚂蚁集团推出的一系列基于扩散机制的大语言模型,年初还是个小众方向的「扩散语言模型(dLLM)」,现在已经被扩展到千亿参数的规模了。和传统语言模型(比如 LLaMA)逐字生成文本不同,它能一次性并行生成多个词,速度更快------实测推理速度达到 535 tokens/秒,比同级别自回归模型快 2.1 倍;它包含 16B 的 mini 版和 100B 的 flash 版(采用 MoE 架构),是全球首个突破百亿参数的扩散语言模型,在代码生成、数学和智能体任务上表现尤为出色;更关键的是,它通过创新的训练方法复用已有模型的知识,避免从头训练,并已将全部模型权重和代码以 Apache 2.0 协议开源,真正把扩散语言模型从理论带入了实际应用。

性能亮点

  • 领先的 MoE 架构 : 开源的 混合专家(MoE)扩散大型语言模型 在 Ling2.0 系列上持续训练,使用了大约 20 万亿个标记
  • 高效的推理 : flash版虽然总参数量为 1000 亿 ,但在推理过程中仅激活 61 亿 参数。LLaDA2.0-flash 显著降低了计算成本,同时超越了类似规模的开源密集型模型。
  • 在代码和复杂推理任务上的出色表现 : 在诸如 代码生成高级数学推理 等任务中表现出色,展示了强大的推理能力。
  • 工具使用 : 支持 工具调用 并在复杂的基于代理的任务中表现出色。
  • 开放与可扩展性 : 完全开源并致力于透明度。我们计划在未来发布一个 领先的推理框架 ,并继续投资于前沿领域如 扩散大语言模型 (dLLM) 以推动颠覆性创新。

训练过程

LLaDA2.0 无需代价高昂的从头训练,而是秉持知识继承、渐进式适应与效率优先的设计原则,利用一种新颖的三阶段、基于块级权重空间分解(WSD)的训练方案,将预训练的 AR 模型无缝转换为 dLLM:第一阶段为块扩散中的块尺寸逐步增大(预热阶段),第二阶段为大规模全序列扩散(稳定阶段),第三阶段则回退至紧凑块尺寸的扩散(衰减阶段)。结合后续基于监督微调(SFT)和直接偏好优化(DPO)的对齐训练,我们得到了两个面向实际部署优化的指令微调版混合专家(MoE)模型:LLaDA2.0-mini(160 亿参数)和 LLaDA2.0-flash(1000 亿参数)。这些模型保留了并行解码的优势,在前沿规模下实现了卓越的性能与效率。两个模型均已开源。

Benchmark Performance of LLaDA2.0

LLaDA2.0-flash

基准 Qwen3-30B-A3B-Instruct-2507 Ling-flash-2.0 LLaDA2.0-flash-preview LLaDA2.0-flash
平均 79.47 78.03 71.92 79.32
知识
MMLU 87.13 87.98 83.15 87.69
MMLU-Pro 74.23 76.84 49.22 73.36
GPQA 57.34 67.12 46.59 61.98
arc-c 95.81 95.08 93.90 95.93
CMMLU 86.36 86.59 67.53 85.13
C-EVAL 88.17 88.03 66.54 86.75
GAOKAO-Bench 94.53 93.24 86.12 93.90
推理
SQuAD 2.0 89.51 81.32 85.61 90.00
DROP 87.57 88.32 79.49 87.90
KOR-Bench 68.00 68.96 37.26 64.24
HellaSwag 86.31 81.59 86.00 84.97
编码
CRUXEval-O 86.75 82.75 61.88 85.12
MBPP 86.65 85.01 77.75 88.29
MultiPL-E 70.67 65.76 62.43 74.87
HumanEval 93.29 85.98 80.49 94.51
Bigcodebench-Full 41.49 40.70 30.44 41.58
LiveCodeBench 41.63 44.11 28.58 42.29
Spider 81.79 80.58 81.37 82.49
数学
GSM8K 96.36 95.45 89.01 96.06
MATH 96.70 96.1 73.50 95.44
OlympiadBench 77.59 76.19 47.78 74.07
AIME 2025 61.88 55.89 23.33 60.00
代理与对齐
BFCL_Live 73.19 67.57 74.11 75.43
IFEval-strict -prompt 84.29 81.52 62.50 81.70

LLaDA2.0-mini

基准 Qwen3-8B (无思考) Ling-mini-2.0 LLaDA2.0-mini-preview LLaDA2.0-mini
平均 70.19 72.13 61.75 71.67
知识
MMLU 80.94 82.15 72.49 80.53
MMLU-Pro 65.48 63.72 49.22 63.22
GPQA 46.59 56.80 31.82 47.98
arc-c 93.35 93.09 89.15 93.56
CMMLU 79.17 80.84 67.53 79.50
C-EVAL 81.36 82.10 66.54 81.38
GAOKAO-Bench 84.94 87.23 74.46 84.30
推理
SQuAD 2.0 85.21 75.56 85.61 86.50
DROP 84.56 78.80 79.49 81.91
KOR-Bench 54.48 62.72 37.26 50.40
HellaSwag 79.56 69.02 74.01 79.01
编码
CRUXEval-O 74.06 76.12 61.88 71.62
MBPP 78.92 84.07 77.75 81.50
MultiPL-E 61.7 67.09 62.43 67.46
HumanEval 84.76 85.98 80.49 86.59
BigCodeBench-Full 36.05 35.00 30.44 32.89
LiveCodeBench 26.38 34.97 19.93 31.50
Spider 72.80 76.43 75.64 76.76
数学
GSM8K 93.63 94.62 89.01 94.24
MATH 86.28 94.66 73.50 93.22
OlympiadBench 55.33 72.30 36.67 67.70
AIME 2025 22.08 47.66 10.00 36.67
代理与对齐
BFCL_Live 70.08 53.98 74.11 70.90
IFEval-strict -prompt 86.9 76.16 62.50 80.78

大模型相关课程:

|----|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 一 | 1.大模型的发展与局限性 |
| 2 | 二 | 1.1 ollama本地快速部署deepseek |
| 3 | 二 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 二 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 二 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 二 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 二 | 1.6 DeepSeek-OCR部署尝鲜 |
| 8 | 二 | 2.1 从零训练自己的大模型概述 |
| 9 | 二 | 2.2 分词器 |
| 10 | 二 | 2.3 预训练自己的模型 |
| 11 | 二 | 2.4 微调自己的模型 |
| 12 | 二 | 2.5 人类对齐训练自己的模型 |
| 13 | 二 | 3.1 微调训练详解 |
| 14 | 二 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 15 | 二 | 3.3 transform+LoRA代码微调deepseek实践 |
| 16 | 二 | 4.1 文生图(Text-to-Image)模型发展史 |
| 17 | 二 | 4.2 文生图GUI训练实践-真人写实生成 |
| 18 | 二 | 4.3 文生图代码训练实践-真人写实生成 |
| 19 | 二 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 20 | 二 | 5.2 文生视频(Text-to-Video)模型训练实践 |
| 21 | 二 | 6.1 目标检测模型的发展史 |
| 22 | | 6.2 YOLO模型训练实践及目标跟踪 |
| 23 | 三 | 1.1 Dify介绍 |
| 24 | 三 | 1.2 Dify安装 |
| 25 | 三 | 1.3 Dify文本生成快速搭建旅游助手 |
| 26 | 三 | 1.4 Dify聊天助手快速搭建智能淘宝店小二 |
| 27 | 三 | 1.5 Dify agent快速搭建爬虫助手 |
| 28 | 三 | 1.6 Dify工作流快速搭建数据可视化助手 |
| 29 | 三 | 1.7 Dify chatflow快速搭建数据查询智能助手 |
| 30 | 三 | 2.1 RAG介绍 |
| 31 | 三 | 2.2 Spring AI-手动实现RAG |
| 32 | 三 | 2.3 Spring AI-开箱即用完整实践RAG |
| 33 | 三 | 2.4 LlamaIndex实现RAG |
| 34 | 三 | 2.5 LlamaIndex构建RAG优化与实践 |
| 35 | 三 | 2.6 LangChain实现RAG企业知识问答助手 |

相关推荐
upper20203 小时前
数据挖掘10
人工智能·数据挖掘
黑客思维者3 小时前
机器学习011:监督学习【回归算法】(多项式回归)-- 从“猜咖啡温度”到预测万物
人工智能·学习·机器学习·回归·线性回归·监督学习·多项式回归
小杨互联网3 小时前
时间序列预测实战:LSTM vs Transformer 在公共交通乘客量预测中的对比
人工智能·lstm·transformer
IT·小灰灰3 小时前
豆包大模型1.8:Agent时代的多模态大脑——中国AI的跃迁时刻
人工智能
斯文by累3 小时前
Stable Diffusion 3.5 FP8:高效文生图技术革命
人工智能·stable diffusion
l1t3 小时前
豆包解读论文:将具有分支和循环控制流的命令式程序转换为标准SQL1999的公共表表达式
开发语言·数据库·人工智能·python·sql·postgresql·duckdb
~央千澈~3 小时前
AU针对AI音乐时间分析:改良人工智能: 最可能 (86%)需要如何处理?
人工智能
zhaodiandiandian3 小时前
守住伦理底线 破解生成式AI商业化的治理困局
人工智能
————A3 小时前
强化学习基础概念----状态、动作、策略、奖励
人工智能·python