ERNIE 5.0 Technical Report论文解读

摘要

本报告介绍ERNIE 5.0 ------一款原生自回归基座模型，专为文本、图像、视频与音频的统一多模态理解与生成而设计。模型基于超稀疏混合专家（MoE）架构 与模态无关专家路由机制 ，所有模态以统一的下一组令牌预测目标从零开始联合训练。

为解决多样化资源约束下的规模化落地难题，ERNIE 5.0采用创新的弹性训练范式：单次预训练即可习得一组具备不同深度、专家容量与路由稀疏度的子模型，可在内存或时延受限场景下，灵活实现性能、模型规模与推理时延的权衡。此外，我们系统性攻克了强化学习在统一基座模型上的规模化挑战，保障超稀疏MoE架构与多元多模态场景下后训练的高效与稳定。

大量实验表明，ERNIE 5.0在多模态任务上实现了强劲且均衡的性能表现。据我们所知，在已公开模型中，ERNIE 5.0是首个实现量产级部署、支持多模态理解与生成的万亿参数统一自回归模型。为助力后续研究，本文详细可视化了统一模型中的模态无关专家路由机制，并对弹性训练展开全面实证分析，以期为学界提供深刻启发。

ERNIE 5.0 论文的 Introduction 核心讲了这几件事，我给你整理成清晰好懂的要点版：

introduction

1. 现有多模态大模型的痛点

主流模型（GPT、Gemini、ERNIE 前代、Qwen 等）都是以文本为中心，用自回归做理解，但生成还是靠文本输出。
后来的方案是"语言模型 + 模态专用解码器 "，属于后期融合（late-fusion）。
这种结构会导致：
- 理解和生成脱节
- 跨模态融合不深
- 出现"能力跷跷板"：增强多模态就会削弱文本能力

2. ERNIE 5.0 要解决的核心问题

提出一个真正统一的自回归多模态框架，必须同时满足：

原生支持理解 + 生成
保留强单模态能力
能随模型/数据规模高效扩展

3. ERNIE 5.0 的核心设计思路

不是给语言模型加外挂，而是所有模态从零一起训练。
把文本、图像、视频、音频映射到共享 Token 空间。
统一用 Next-Group-of-Tokens Prediction 目标训练，消除模态边界。
用 超稀疏 MoE 架构 + 与模态无关的专家路由，不按模态分配专家。

"Next-Group-of-Tokens Prediction"（或称多Token预测，Multi-Token Prediction, MTP）是一种让大语言模型在每次运算中，不再只预测下一个词，而是能一口气预测后续多个词的训练技术。它是对经典的"下一个词预测"（Next-Token Prediction, NTP）的一次重要升级。

🧠 核心工作原理
改造模型：在标准的大模型基础上，为其增加多个独立的"预测头"，每个头负责预测一个特定位置的未来Token。
设计损失函数：模型的损失值由所有预测头产生的预测误差共同决定，从而驱动模型学习更长远的依赖关系。

🚀 核心优势
🎯 更强的宏观规划能力：预测多个Token迫使模型"站得高，看得远"，更擅长处理编程、数学等需要严谨逻辑和长期规划的任务。
⚡️ 推理速度飙升：一次性生成多个Token，减少了模型"自言自语"的步数，实现了高达3倍的推理速度提升。
📈 性能表现更优异：在编程任务上效果尤为显著，例如13B参数的模型在HumanEval基准测试中的解题率提升了12%，在MBPP上则提升了17%。

4. 两大创新技术

（1）弹性训练（Elastic Training）

一次预训练，直接生成一组不同大小、深度、稀疏度的子模型。
不用单独训小模型，不用后压缩。
适配不同硬件、内存、时延场景。

（2）稳定高效的多模态强化学习

解决稀疏奖励、熵崩塌、训练推理不一致等问题，让万亿参数 MoE 能稳定做 RL。

5. 基础设施支撑

混合并行策略支撑万亿参数训练
Tokenizer 与主干网络解耦部署
FlashMask 加速多模态注意力
可扩展的分布式 RL 架构

Architecture（架构）

一、整体架构总览

ERNIE 5.0 采用超稀疏混合专家（MoE）架构 ，在单一自回归框架内融合文本、图像、视频、音频四大模态的理解与生成。

核心：共享统一Transformer主干 + 专用视觉/音频Tokenizer
目标：所有模态共享下一组Token预测（Next-Group-of-Tokens Prediction） 训练目标，实现端到端深度跨模态交互

二、2.1 统一自回归主干 + 超稀疏MoE

统一模态训练范式
- 多模态输入映射到共享Token空间，序列化后统一建模
- 文本：标准下一个Token预测（NTP）+ 多Token预测（MTP）
- 视觉：下一帧与尺度预测（NFSP）
- 音频：下一个编解码器预测（NCP）
- 全模态对齐自回归生成逻辑，消除模态优化差异
超稀疏MoE与模态无关专家路由
- 路由决策基于统一Token表征，而非模态标识，所有模态共享专家池
- 专家激活率低于3%，高效扩容模型容量，计算成本可控
- 无辅助损失的负载均衡策略，保障万亿参数规模训练稳定
统一表征设计
- 同时学习高层语义 （支撑理解）与细粒度感知细节（支撑生成）
- 理解与生成相互强化，单一支干兼顾感知、推理、创作

三、2.2 视觉建模（图像+视频统一处理）

将图像视为单帧视频，统一设计视觉理解与生成流程：

视觉Token化（2.2.1）
- 因果2D多尺度Tokenizer → 扩展为3D卷积Tokenizer，统一图像/视频编码
- 逐比特量化 + 渐进式切换低/高比特Tokenizer，缓解训练初期不稳定
视觉理解（2.2.2）
- 双路径混合表征：CNN（感知细节）+ ViT（语义特征）
- 注意力块融合（Attention-based Patch Merger）：优于传统MLP融合，大幅提升文档/图表/通用视觉理解精度
视觉生成（2.2.3）
- 范式：下一帧与尺度预测（NFSP），图像按尺度生成、视频按帧+尺度生成
- 位置编码：统一时空旋转位置编码（Uni-RoPE），适配多模态时空位置
- 优化：随机翻转历史Token增强长序列鲁棒性；级联扩散细化器，提升高分辨率画质

背景回顾：我们有什么？
在 ERNIE 5.0 的视觉理解路径中，每个图像会同时经过两个编码器：

CNN ：输出一堆局部细节特征 （比如边缘、纹理、小字体的笔画）。这些特征空间对齐好，但缺乏全局语义。

ViT ：输出一堆全局语义特征 （比如"这是一个图表标题"、"这是一段文字块"）。这些特征语义强，但局部细节可能模糊。

现在我们要把这两路特征合并成一个统一的表示，送给后面的主干模型。问题来了：这两路特征在空间结构上不对齐 （CNN 的特征图尺寸、ViT 的 patch 划分可能不一样），而且信息层次不同（细节 vs 语义）。

传统 MLP 融合怎么做？为什么不好？
一个直观的方法：把每个位置的 CNN 特征和 ViT 特征直接拼起来 ，然后扔进一个 MLP（多层感知机）压缩成想要的维度。
这就像把两张不同风格的照片简单叠在一起，然后让一个滤镜去处理------每个位置独立处理 ，不考虑周围 patch 之间的关系。
结果就是：

特征干扰：CNN 的细节噪声会污染 ViT 的语义，ViT 的粗略化会抹掉 CNN 的精细信息。

缺乏空间交互 ：比如图表中一个数据点（小圆点）和它旁边的标签文字，它们之间的对应关系需要跨 patch 的注意力才能捕获，MLP 做不到。

文档/图表理解尤其吃亏：文档里一个小号字体（需要 CNN 看清笔画）和它所属的段落标题（需要 ViT 理解语义），如果不做跨区域交互，很容易认错或忽略。

Attention-based Patch Merger 是怎么做的？
ERNIE 5.0 的设计分四步（见报告 2.2.2）：

对齐维度：把 CNN 特征投影到和 ViT 特征相同的维度（这样它们才能"对话"）。

按组拼接 ：不是把单个 CNN 特征和单个 ViT 特征拼起来，而是把空间上相邻的一组 patch（比如 4 个）的 CNN 特征和 ViT 特征全都放在一起，形成一个 (2K) 个 patch 的序列（K 是每组 patch 数量）。

这样，每个"融合单元"里既有局部细节（CNN），又有局部语义（ViT），还包含空间邻居的信息。

多头自注意力 ：对这个 (2K) 个 patch 的序列做自注意力。

注意力的作用：让每个 patch 能够"看到"组内所有其他 patch，自动学习哪些 patch 应该互相加强、哪些应该抑制。

例如：ViT 的语义 patch 发现某个 CNN 细节 patch 与自己高度相关，就会给它更高的权重；反之，不相关的噪声细节会被忽略。

池化压缩：最后把这一组 patch 的注意力输出做平均池化，得到一个紧凑的融合 token。

为什么这比 MLP 好？
| 对比项 | MLP 融合 | Attention-based Patch Merger |
|--------|-----------|-------------------------------|
| 交互范围 | 每个位置独立，无跨 patch 交互 | 组内所有 patch 互相交互，能建模局部空间关系 |
| 权重学习 | 固定权重（训练后固定） | 动态权重（根据输入内容自适应） |
| 抗干扰 | 细节和语义简单叠加，互相污染 | 注意力可以"选择"有用的信息，忽略无关的 |
| 适合任务 | 通用图像分类尚可 | 文档/图表理解（需要精细定位+语义关联）效果飙升 |
打个比方：

MLP 融合：就像把一堆乐高积木（CNN 细节）和一幅画（ViT 语义）胡乱塞进一个袋子，摇一摇就拿出来。

Attention 融合：像有一个聪明的助手，先把积木和画按小块拆开，然后根据每块的内容决定哪些应该粘在一起、哪些应该扔掉，最后拼出一个完整模型。

实际效果（报告原文）
"The proposed attention‑based aggregation module consistently outperforms both CNN‑only and ViT‑only baselines ... with particularly pronounced gains in document and chart understanding as well as general visual understanding tasks."
简单说：在文档理解（比如识别发票里的文字和表格）、图表理解（比如看懂折线图的趋势和数据点）、通用视觉问答上，Attention 融合比 MLP 融合或单一路径都要好一大截。

四、2.3 音频建模

基于自回归Token框架，实现音频理解与高保真生成：

音频Token化（2.3.1）
- 残差矢量量化（RVQ），Token率12.5Hz
- 第一层Token蒸馏Whisper知识，捕获音频语义；其余层捕获音色、韵律等细粒度声学信息
音频理解与生成（2.3.2）
- 深度自回归架构：避免多码本Token展平为长序列
- 理解：深度加法嵌入，融合多残差层音频特征
- 生成：下一个编解码器预测（NCP），粗到细分层生成；生成结果回传 conditioning 后续预测，支持可控音色合成

Pre-Training

本章是模型习得跨模态通用表征 的核心环节，完整包含3.1 预训练数据构建 、3.2 训练策略方案 、**3.3 一次性全弹性训练（核心创新）**三部分，核心目标是：一次预训练，产出一组不同规格的子模型，兼顾性能、训练成本与部署灵活性，完全解决传统大模型"训完再压缩"的痛点。

3.1 Pre-Training Data 预训练数据

3.1.1 数据整体定位

ERNIE 5.0 采用从零开始联合训练 所有模态（文本/图像/视频/音频），因此需要大规模、高保真、多样性 的多模态数据集，且从训练第一天就同时灌入所有模态数据，而非后期拼接。

数据严格分为两大类：文本数据 、多模态数据，并通过标准化平台统一管理与清洗。

3.1.2 文本数据（Text Data）

数据来源
覆盖多语言网页爬取数据、精洗语料、书籍、科研论文、代码仓库、结构化知识源，兼顾广度、多样性与语言丰富度。
文本Tokenizer 专项优化
- 编码格式：采用UTF-16BE编码，为非拉丁字母语言提供稳定的字节级回退，压缩表示、提升多语言训练吞吐量。
- 正则化：使用BPE Dropout，降低模型对高频模式的过拟合。
- 中文优化：过滤超长无空格短语，用分词工具拆解，降低词汇稀疏性，提升训练效率与泛化能力。
数据规模：万亿级文本Token，是模型语言能力的基础。

3.1.3 多模态数据（Multimodal Data）

数据构成
- 配对数据：图像-文本、视频-文本、音频-文本配对样本。
- 交错数据：文本与图像/视频/音频混合的交错多模态序列。
- 配套信息：所有数据附带元数据、字幕、描述信息，建立跨模态语义对齐。
数据价值
建立文本概念与视觉/音频上下文的时空关联，让模型同时学会单模态感知 与跨模态理解/生成。
极致数据清洗
- 启发式+模型双重过滤：剔除低质、不安全内容。
- 全量去重：避免模型记忆化。
- 去污染：严格剔除测试基准数据，保证评估公平。
数据规模：万亿级文本Token + 海量多模态样本，平衡规模与语义保真度。

3.2 Training Recipe 训练策略（训练食谱）

核心：多阶段渐进式预训练，逐步扩展上下文长度，严格控制优化稳定性、算力利用率、模态平衡。

3.2.1 阶段1：8K 初始预训练

上下文长度：最大 8K Token
学习率策略 ：WSD（预热-稳定-衰减）
- 线性预热：2000步从0升至峰值 1×10⁻⁴
- 预热后全程保持恒定学习率
批大小策略 ：全局批大小从 14M Token 逐步提升至 56M Token，提升大规模训练稳定性与效率。
长上下文兼容 ：RoPE位置编码基值直接设为 1,000,000，后续扩展上下文无需重参数化/插值，实现无损长上下文训练。
MoE专项配置 ：无辅助损失负载均衡的偏置更新率 = 1×10⁻⁴
多Token预测（MTP） ：损失权重 = 0.3

3.2.2 阶段2：32K & 128K 中期训练

上下文长度：逐步扩展至 32K → 128K Token，全局批大小保持不变。
学习率策略 ：切换为余弦退火，从 1×10⁻⁴ 逐步降至 1×10⁻⁵。
MoE专项优化 ：负载均衡偏置更新率降至 1×10⁻⁵，抑制大规模MoE训练的迭代振荡。
MTP调整：损失权重从0.3降至0.1，适配长上下文优化。
模态平衡 ：引入后验损失重加权，将文本/视觉/音频的自回归损失缩放到同一区间，避免模态间优化失衡。

3.3 Once-For-All with Elastic Training 一次性全弹性训练（本章核心创新）

3.3.1 研发背景：传统大模型的致命痛点

传统万亿参数模型采用**训练→压缩（剪枝/蒸馏）**流程，存在三大缺陷：

压缩需要单独阶段，算力与工程成本极高。
压缩后架构固定，想换尺寸必须重新压缩。
小模型性能损耗大，无法适配多样化部署场景。

3.3.2 弹性训练核心思想

不做后压缩，预训练中同时训练"全模型+一堆子模型" ，单次预训练直接产出不同深度、不同专家数量、不同稀疏度的一整套模型家族，子模型直接继承全模型知识，无需单独训练。

3.3.3 三大弹性维度（Figure 4 完整对应）

ERNIE 5.0 从深度、宽度、稀疏度三个正交维度实现弹性，训练时动态采样子网络，一次反向传播同步优化全模型与子模型。

（1）弹性深度 Elastic Depth

作用：随机调整激活的Transformer层数，适配不同算力的推理部署。
训练策略：
- 75% 概率：使用全深度模型，保证所有层充分优化。
- 25% 概率：随机采样浅层子网络，让模型学会层移除后仍保持有效表征。
效果：浅层子模型性能平滑下降，可直接部署，无需重训。

（2）弹性宽度 Elastic Width

作用：动态调整MoE层的总专家数量，适配内存受限设备。
训练策略：
- 80% 概率：激活全部专家，保持全能力。
- 20% 概率：随机采样部分专家，窄化模型宽度。
效果：小宽度模型可在低内存设备运行，性能损失极小。

（3）弹性稀疏度 Elastic Sparsity

作用：动态调整单Token激活的专家数（top-k），提升推理速度、降低时延。
训练策略：
- 80% 概率：使用默认top-k路由。
- 20% 概率：随机采样更小的top-k，减少单Token激活专家数。
效果：推理时top-k降至25%，解码提速超15%，精度几乎无损失。

3.3.4 弹性训练的核心优势

一次训练，全尺寸覆盖：无需单独训大/中/小模型，无重复算力浪费。
子模型即插即用：子模型直接继承全模型知识，后续微调直接用。
极致部署适配：自由权衡性能、模型大小、推理时延，适配从云端到边缘的全场景硬件。
性能无损 ：仅用35.8%总参数、53.7%激活参数，就能达到全模型99%+的性能。

3.3.5 论文实证结论

弹性训练不是简单的"模型压缩"，而是原生训练范式：

弹性深度：轻微提升全模型性能，带来正则化效果。
弹性宽度：全容量下几乎无性能下降，窄模型可用。
弹性稀疏度：推理稀疏度大幅降低，速度显著提升，精度平滑下降。

第四章 Post-Training（后训练 / 多模态强化学习）

第四章整体概览

ERNIE 5.0 后训练完全沿用ERNIE 4.5的两阶段框架，并针对统一多模态+超稀疏MoE做专项升级：

第一阶段：监督微调（SFT）
用高质量多模态指令对数据微调，让模型学会听懂指令、输出结构化结果、完成长思维链推理，奠定基础交互能力。
第二阶段：统一多模态强化学习（UMRL）
将推理、智能体、指令遵循、多模态生成等任务融合进多阶段RL流程，通过奖励信号优化模型行为，实现多模态任务的均衡性能。
核心支撑：统一验证器系统
为文本/图像/视频/音频的多模态响应生成精准、一致的奖励信号，是RL训练的监督基础。

后训练面临的三大核心挑战（论文明确提出）

ERNIE 5.0的超稀疏MoE+全模态统一架构，让RL训练比普通大模型难得多，具体挑战：

计算成本爆炸
万亿参数模型的RL Rollout（生成探索样本）占总训练时间90%以上，算力消耗极高。
训练-推理不一致+熵崩塌
超稀疏MoE的动态路由会放大训练与推理的数值偏差，导致RL早期策略熵骤升/骤降（熵崩塌），模型丧失跨模态融合能力，出现模态偏见。
多模态稀疏奖励失效
多模态复杂任务（如视觉推理、音频理解）的奖励信号极度稀疏，传统RL（GRPO/DAPO）在奖励全为0时无梯度，难任务训练完全停滞。

训练-推理不一致：

曝光偏差：训练时使用真实上下文（Teacher Forcing），推理时使用自身生成的上下文。导致错误累积，影响生成质量，如生成内容重复、不连贯或产生幻觉。例子：要生成句子"我爱北京天安门"。训练时，模型在预测"爱"时，看到的历史是"我"；预测"北"时，看到的历史是"我爱"（是正确的，即使模型之前把"爱"预测成了"恨"，这里依然给它看"我爱"）。
RLHF / RL 场景里的"训推误差"：

在 LLM 的 RLHF、PPO、GRPO 等训练里，"训练-推理不一致"更多指：
- 训练过程实际包含两步：
  - Rollout（推理/采样）：用当前策略生成一批回答，用来算奖励；
  - 训练/更新：在生成的数据上算梯度、更新策略参数。
  - 但这两步通常由不同引擎执行：
  - Rollout：高度优化的推理引擎（例如 vLLM、SGLang）；
  - 训练：分布式训练框架（例如 Megatron-LM、FSDP 等）。
  - 即便用的是同一份模型参数，由于下面这些差异，会得到不同的"策略分布"：
- 浮点精度与算子实现：
  - 训练常用 BF16，推理为了吞吐可能用 FP16/FP8 或专用 kernel；
  - 不同精度 + 不同 reduction 顺序会带来舍入与累积误差，导致同样的输入输出不一样的 log-prob。
  - 并行策略：TP/PP/DP 不同切分，通信顺序不同，也会放大数值差异；
  - MoE 等结构：路由本身对数值敏感，微小差异会选不同的专家，再进一步放大不一致。
训推不一致在 RL 中怎么变成"稳定性炸弹"？

在 PPO/GRPO 这类算法里，梯度估计里会出现"概率比率"（rollout 分布 / 训练分布）之类的项，例如策略梯度形式里会用 π_train 和 π_rollout 的比值做重要性采样。

如果训推不一致严重：
- 梯度估计有偏且高方差：训练过程不再是对真实目标的无偏优化，训练会震荡甚至崩溃；
- 部署-训练性能拉开差距：训练看起来 OK，但上到真实推理引擎效果却拉胯；
- 在长序列/大模型上，低概率 token 处的误差被放大，在序列级累积。

4.1 Enhancing Rollout Efficiency with Unbiased Replay Buffer

（用无偏回放缓冲区U-RB提升Rollout生成效率）

1. 行业痛点：Rollout的长尾低效问题

RL训练中，响应长度呈长尾分布：少数极长的推理/生成任务会卡住整个批次，导致GPU大量闲置、利用率极低，是RL效率低的核心原因。

2. 现有方案的缺陷：APRIL算法

APRIL通过超额分配请求、提前终止生成提升速度，但会导致：

短响应（简单任务）优先进入训练，长响应（难任务）被延后
数据难度分布非平稳，模型过早拟合简单任务，难任务性能极差
最终收敛效果差，模型泛化能力下降

3. ERNIE 5.0 解决方案：U-RB无偏回放缓冲区

U-RB是APRIL的无偏升级版本 ，核心是保留数据顺序约束，既提速又保证数据分布公平。

（1）核心结构

高吞吐量推理池P_infer：容量=训练批大小×缓冲系数，并行生成所有Rollout样本
训练池P_train ：容量=标准训练批大小，仅收集当前迭代分配的完整样本用于训练

（2）运行机制

初始化时，固定当前迭代的数据组，仅允许该组数据参与本轮训练
推理池并行生成所有样本，直到当前组最长的样本生成完成
完整样本从推理池移入训练池，再启动RL参数更新
未完成的样本留到下一轮继续生成，不丢弃、不提前截断

（3）核心效果

彻底解决长响应卡批次问题，GPU利用率拉满
严格保留原始数据分布，无偏训练，不牺牲难任务性能
Rollout生成效率提升50%以上，是万亿模型RL可落地的关键工程优化

4. 论文可视化对比（Figure 5）

Sync RL：长任务阻塞整批，GPU大量闲置
APRIL：提前终止，数据分布偏置
U-RB：有序生成、无偏分布、GPU无闲置

4.2 Stabilizing Training with Mitigated Entropy Collapse

（缓解熵崩塌，实现稳定训练）

1. 核心问题：多模态熵崩塌

现象：RL早期策略熵急剧波动（骤升/骤降）
危害：模型丧失跨模态信息融合能力，出现模态偏见（比如只看文本、忽略视觉/音频）
根源：
1. 训练/推理引擎数值不一致，MoE动态路由加剧该问题
2. 模型过早过拟合简单查询，丧失探索能力

2. 解决方案1：MISC 多粒度重要性采样裁剪

（1）技术背景

原始IcePop+GSPO算法会序列级裁剪低熵响应，导致大量有效样本被丢弃，直接引发熵崩塌。

（2）MISC改进

修正为混合粒度采样，不再一刀切裁剪整序列
按模态敏感度动态调整信任域，平衡探索与利用
避免模型过早收敛到"安全但平庸"的策略，保留多模态推理灵活性

（3）效果

彻底解决RL早期熵崩塌问题，训练曲线全程稳定（论文Figure 6深色线）。

3. 解决方案2：WPSM 优质样本掩码

（1）核心思路

把训练梯度预算从"已经学好的简单任务"转移到"难任务/稀疏奖励任务"。

（2）运行机制

跟踪每个查询的平均成功率
对准确率超阈值+策略熵低于稳定值的"优质学好样本"，进行掩码屏蔽
被掩码的样本不参与梯度更新，节省算力给难样本

（3）效果

缓解模型过拟合简单查询导致的熵崩塌
大幅提升难任务（如数学推理、复杂视觉理解）的性能

4.3 Boosting Sample Efficiency with Hint-based Learning

（基于提示的学习，提升稀疏奖励下的样本效率）

1. 核心痛点：稀疏奖励失效

传统RL（GRPO/DAPO）在base模型完全做不出的难任务 上，所有Rollout样本奖励=0，无梯度信号，训练完全停滞。

2. 解决方案：AHRL 自适应提示强化学习

（1）核心思想

给难任务注入部分思考骨架（think skeleton），把复杂问题拆解为中间步骤，降低探索难度，让模型先学会"分步做"，再学会"自己做"。

（2）运行机制

对原始查询x，拼接前p_hint个思考Token 作为提示，生成增强查询xˉ(p)\bar{x}^{(p)}xˉ(p)
提示比例退火 ：
- 训练初期：高比例提示，给模型"脚手架"
- 训练后期：逐步降低提示比例，直到完全无提示自主推理
提示比例公式：phint(xt)=pinitial⋅exp(−γ⋅t⋅passinitialx)p_{hint}(x^t)=p_{initial}·exp(-\gamma·t·pass_{initial}^x)phint(xt)=pinitial⋅exp(−γ⋅t⋅passinitialx)
- t：训练迭代次数
- pass_initial^x：SFT模型在该查询上的通过率（越难，初始提示越多）

（3）效果

解决稀疏奖励无梯度问题，难任务样本效率提升10倍以上
模型逐步掌握复杂推理，最终脱离提示也能完成任务
多模态推理、数学难题、复杂文档理解性能大幅提升

insight

🤖 1. 大模型更"偏爱"给语言分配脑力在引入了MoE（混合专家）架构的原生多模态训练里，哪怕研究员已经在代码里加上了"负载均衡（强制端水）"的机制，AI还是会自发地打破均衡：它会把绝大多数的"专家（神经元网络）"偷偷分配给文本，而只留小部分给视觉。

🧠 2. 语言是"参数渴求型"，视觉是"数据渴求型" 文心5.0的报告里把这个本质揭露得很透彻：文本/语言能力的突破，极其依赖模型规模的扩大（需要更大的脑容量，即参数）；而视觉能力的提升，则更依赖于你喂给它多庞大、多丰富的画面（需要更广的阅历，即数据量）。

ERNIE 5.0 Technical Report论文解读

摘要

introduction

1. 现有多模态大模型的痛点

2. ERNIE 5.0 要解决的核心问题

3. ERNIE 5.0 的核心设计思路

4. 两大创新技术

（1）弹性训练（Elastic Training）

（2）稳定高效的多模态强化学习

5. 基础设施支撑

Architecture（架构）

一、整体架构总览

二、2.1 统一自回归主干 + 超稀疏MoE

三、2.2 视觉建模（图像+视频统一处理）

四、2.3 音频建模

Pre-Training

3.1 Pre-Training Data 预训练数据

3.1.1 数据整体定位

3.1.2 文本数据（Text Data）

3.1.3 多模态数据（Multimodal Data）

3.2 Training Recipe 训练策略（训练食谱）

3.2.1 阶段1：8K 初始预训练

3.2.2 阶段2：32K & 128K 中期训练

3.3 Once-For-All with Elastic Training 一次性全弹性训练（本章核心创新）

3.3.1 研发背景：传统大模型的致命痛点

3.3.2 弹性训练核心思想

3.3.3 三大弹性维度（Figure 4 完整对应）

（1）弹性深度 Elastic Depth

（2）弹性宽度 Elastic Width

（3）弹性稀疏度 Elastic Sparsity

3.3.4 弹性训练的核心优势

3.3.5 论文实证结论

第四章 Post-Training（后训练 / 多模态强化学习）

第四章 整体概览

后训练面临的三大核心挑战（论文明确提出）

训练-推理不一致：

4.1 Enhancing Rollout Efficiency with Unbiased Replay Buffer

（用无偏回放缓冲区U-RB提升Rollout生成效率）

1. 行业痛点：Rollout的长尾低效问题

2. 现有方案的缺陷：APRIL算法

3. ERNIE 5.0 解决方案：U-RB无偏回放缓冲区

（1）核心结构

（2）运行机制

（3）核心效果

4. 论文可视化对比（Figure 5）

4.2 Stabilizing Training with Mitigated Entropy Collapse

（缓解熵崩塌，实现稳定训练）

1. 核心问题：多模态熵崩塌

2. 解决方案1：MISC 多粒度重要性采样裁剪

（1）技术背景

（2）MISC改进

（3）效果

3. 解决方案2：WPSM 优质样本掩码

（1）核心思路

（2）运行机制

（3）效果

4.3 Boosting Sample Efficiency with Hint-based Learning

（基于提示的学习，提升稀疏奖励下的样本效率）

1. 核心痛点：稀疏奖励失效

2. 解决方案：AHRL 自适应提示强化学习

（1）核心思想

（2）运行机制

（3）效果

insight

第四章整体概览