LLaDA2.0:蚂蚁开源业内首个 100B 扩散语言模型

传统扩散模型最早用于图像生成(比如 Stable Diffusion),其原理是从纯噪声开始,通过多步"去噪"逐步还原出清晰内容。过去人们认为这种机制难以用于离散的文本(因为文字不像像素可微)。

LLaDA2.0 是蚂蚁集团推出的一系列基于扩散机制的大语言模型,年初还是个小众方向的「扩散语言模型(dLLM)」,现在已经被扩展到千亿参数的规模了。和传统语言模型(比如 LLaMA)逐字生成文本不同,它能一次性并行生成多个词,速度更快------实测推理速度达到 535 tokens/秒,比同级别自回归模型快 2.1 倍;它包含 16B 的 mini 版和 100B 的 flash 版(采用 MoE 架构),是全球首个突破百亿参数的扩散语言模型,在代码生成、数学和智能体任务上表现尤为出色;更关键的是,它通过创新的训练方法复用已有模型的知识,避免从头训练,并已将全部模型权重和代码以 Apache 2.0 协议开源,真正把扩散语言模型从理论带入了实际应用。

性能亮点

  • 领先的 MoE 架构 : 开源的 混合专家(MoE)扩散大型语言模型 在 Ling2.0 系列上持续训练,使用了大约 20 万亿个标记
  • 高效的推理 : flash版虽然总参数量为 1000 亿 ,但在推理过程中仅激活 61 亿 参数。LLaDA2.0-flash 显著降低了计算成本,同时超越了类似规模的开源密集型模型。
  • 在代码和复杂推理任务上的出色表现 : 在诸如 代码生成高级数学推理 等任务中表现出色,展示了强大的推理能力。
  • 工具使用 : 支持 工具调用 并在复杂的基于代理的任务中表现出色。
  • 开放与可扩展性 : 完全开源并致力于透明度。我们计划在未来发布一个 领先的推理框架 ,并继续投资于前沿领域如 扩散大语言模型 (dLLM) 以推动颠覆性创新。

训练过程

LLaDA2.0 无需代价高昂的从头训练,而是秉持知识继承、渐进式适应与效率优先的设计原则,利用一种新颖的三阶段、基于块级权重空间分解(WSD)的训练方案,将预训练的 AR 模型无缝转换为 dLLM:第一阶段为块扩散中的块尺寸逐步增大(预热阶段),第二阶段为大规模全序列扩散(稳定阶段),第三阶段则回退至紧凑块尺寸的扩散(衰减阶段)。结合后续基于监督微调(SFT)和直接偏好优化(DPO)的对齐训练,我们得到了两个面向实际部署优化的指令微调版混合专家(MoE)模型:LLaDA2.0-mini(160 亿参数)和 LLaDA2.0-flash(1000 亿参数)。这些模型保留了并行解码的优势,在前沿规模下实现了卓越的性能与效率。两个模型均已开源。

Benchmark Performance of LLaDA2.0

LLaDA2.0-flash

基准 Qwen3-30B-A3B-Instruct-2507 Ling-flash-2.0 LLaDA2.0-flash-preview LLaDA2.0-flash
平均 79.47 78.03 71.92 79.32
知识
MMLU 87.13 87.98 83.15 87.69
MMLU-Pro 74.23 76.84 49.22 73.36
GPQA 57.34 67.12 46.59 61.98
arc-c 95.81 95.08 93.90 95.93
CMMLU 86.36 86.59 67.53 85.13
C-EVAL 88.17 88.03 66.54 86.75
GAOKAO-Bench 94.53 93.24 86.12 93.90
推理
SQuAD 2.0 89.51 81.32 85.61 90.00
DROP 87.57 88.32 79.49 87.90
KOR-Bench 68.00 68.96 37.26 64.24
HellaSwag 86.31 81.59 86.00 84.97
编码
CRUXEval-O 86.75 82.75 61.88 85.12
MBPP 86.65 85.01 77.75 88.29
MultiPL-E 70.67 65.76 62.43 74.87
HumanEval 93.29 85.98 80.49 94.51
Bigcodebench-Full 41.49 40.70 30.44 41.58
LiveCodeBench 41.63 44.11 28.58 42.29
Spider 81.79 80.58 81.37 82.49
数学
GSM8K 96.36 95.45 89.01 96.06
MATH 96.70 96.1 73.50 95.44
OlympiadBench 77.59 76.19 47.78 74.07
AIME 2025 61.88 55.89 23.33 60.00
代理与对齐
BFCL_Live 73.19 67.57 74.11 75.43
IFEval-strict -prompt 84.29 81.52 62.50 81.70

LLaDA2.0-mini

基准 Qwen3-8B (无思考) Ling-mini-2.0 LLaDA2.0-mini-preview LLaDA2.0-mini
平均 70.19 72.13 61.75 71.67
知识
MMLU 80.94 82.15 72.49 80.53
MMLU-Pro 65.48 63.72 49.22 63.22
GPQA 46.59 56.80 31.82 47.98
arc-c 93.35 93.09 89.15 93.56
CMMLU 79.17 80.84 67.53 79.50
C-EVAL 81.36 82.10 66.54 81.38
GAOKAO-Bench 84.94 87.23 74.46 84.30
推理
SQuAD 2.0 85.21 75.56 85.61 86.50
DROP 84.56 78.80 79.49 81.91
KOR-Bench 54.48 62.72 37.26 50.40
HellaSwag 79.56 69.02 74.01 79.01
编码
CRUXEval-O 74.06 76.12 61.88 71.62
MBPP 78.92 84.07 77.75 81.50
MultiPL-E 61.7 67.09 62.43 67.46
HumanEval 84.76 85.98 80.49 86.59
BigCodeBench-Full 36.05 35.00 30.44 32.89
LiveCodeBench 26.38 34.97 19.93 31.50
Spider 72.80 76.43 75.64 76.76
数学
GSM8K 93.63 94.62 89.01 94.24
MATH 86.28 94.66 73.50 93.22
OlympiadBench 55.33 72.30 36.67 67.70
AIME 2025 22.08 47.66 10.00 36.67
代理与对齐
BFCL_Live 70.08 53.98 74.11 70.90
IFEval-strict -prompt 86.9 76.16 62.50 80.78

大模型相关课程:

|----|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 一 | 1.大模型的发展与局限性 |
| 2 | 二 | 1.1 ollama本地快速部署deepseek |
| 3 | 二 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 二 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 二 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 二 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 二 | 1.6 DeepSeek-OCR部署尝鲜 |
| 8 | 二 | 2.1 从零训练自己的大模型概述 |
| 9 | 二 | 2.2 分词器 |
| 10 | 二 | 2.3 预训练自己的模型 |
| 11 | 二 | 2.4 微调自己的模型 |
| 12 | 二 | 2.5 人类对齐训练自己的模型 |
| 13 | 二 | 3.1 微调训练详解 |
| 14 | 二 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 15 | 二 | 3.3 transform+LoRA代码微调deepseek实践 |
| 16 | 二 | 4.1 文生图(Text-to-Image)模型发展史 |
| 17 | 二 | 4.2 文生图GUI训练实践-真人写实生成 |
| 18 | 二 | 4.3 文生图代码训练实践-真人写实生成 |
| 19 | 二 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 20 | 二 | 5.2 文生视频(Text-to-Video)模型训练实践 |
| 21 | 二 | 6.1 目标检测模型的发展史 |
| 22 | | 6.2 YOLO模型训练实践及目标跟踪 |
| 23 | 三 | 1.1 Dify介绍 |
| 24 | 三 | 1.2 Dify安装 |
| 25 | 三 | 1.3 Dify文本生成快速搭建旅游助手 |
| 26 | 三 | 1.4 Dify聊天助手快速搭建智能淘宝店小二 |
| 27 | 三 | 1.5 Dify agent快速搭建爬虫助手 |
| 28 | 三 | 1.6 Dify工作流快速搭建数据可视化助手 |
| 29 | 三 | 1.7 Dify chatflow快速搭建数据查询智能助手 |
| 30 | 三 | 2.1 RAG介绍 |
| 31 | 三 | 2.2 Spring AI-手动实现RAG |
| 32 | 三 | 2.3 Spring AI-开箱即用完整实践RAG |
| 33 | 三 | 2.4 LlamaIndex实现RAG |
| 34 | 三 | 2.5 LlamaIndex构建RAG优化与实践 |
| 35 | 三 | 2.6 LangChain实现RAG企业知识问答助手 |

相关推荐
aiguangyuan8 小时前
基于BERT的中文命名实体识别实战解析
人工智能·python·nlp
量子-Alex8 小时前
【大模型RLHF】Training language models to follow instructions with human feedback
人工智能·语言模型·自然语言处理
晚霞的不甘8 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
陈天伟教授8 小时前
人工智能应用- 语言处理:04.统计机器翻译
人工智能·自然语言处理·机器翻译
Dfreedom.8 小时前
图像处理中的对比度增强与锐化
图像处理·人工智能·opencv·锐化·对比度增强
wenzhangli78 小时前
OoderAgent 企业版 2.0 发布的意义:一次生态战略的全面升级
人工智能·开源
AI_56789 小时前
SQL性能优化全景指南:从量子执行计划到自适应索引的终极实践
数据库·人工智能·学习·adb
cyyt9 小时前
深度学习周报(2.2~2.8)
人工智能·深度学习
阿杰学AI9 小时前
AI核心知识92——大语言模型之 Self-Attention Mechanism(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·transformer·自注意力机制
陈天伟教授9 小时前
人工智能应用- 语言处理:03.机器翻译:规则方法
人工智能·自然语言处理·机器翻译