ERNIE 5.0 Technical Report论文解读

摘要

本报告介绍ERNIE 5.0 ------一款原生自回归基座模型,专为文本、图像、视频与音频的统一多模态理解与生成而设计。模型基于超稀疏混合专家(MoE)架构模态无关专家路由机制 ,所有模态以统一的下一组令牌预测目标从零开始联合训练。

为解决多样化资源约束下的规模化落地难题,ERNIE 5.0采用创新的弹性训练范式:单次预训练即可习得一组具备不同深度、专家容量与路由稀疏度的子模型,可在内存或时延受限场景下,灵活实现性能、模型规模与推理时延的权衡。此外,我们系统性攻克了强化学习在统一基座模型上的规模化挑战,保障超稀疏MoE架构与多元多模态场景下后训练的高效与稳定。

大量实验表明,ERNIE 5.0在多模态任务上实现了强劲且均衡的性能表现。据我们所知,在已公开模型中,ERNIE 5.0是首个实现量产级部署、支持多模态理解与生成的万亿参数统一自回归模型。为助力后续研究,本文详细可视化了统一模型中的模态无关专家路由机制,并对弹性训练展开全面实证分析,以期为学界提供深刻启发。

ERNIE 5.0 论文的 Introduction 核心讲了这几件事,我给你整理成清晰好懂的要点版


introduction

1. 现有多模态大模型的痛点

  • 主流模型(GPT、Gemini、ERNIE 前代、Qwen 等)都是以文本为中心,用自回归做理解,但生成还是靠文本输出。
  • 后来的方案是"语言模型 + 模态专用解码器 ",属于后期融合(late-fusion)
  • 这种结构会导致:
    • 理解和生成脱节
    • 跨模态融合不深
    • 出现"能力跷跷板":增强多模态就会削弱文本能力

2. ERNIE 5.0 要解决的核心问题

提出一个真正统一的自回归多模态框架,必须同时满足:

  1. 原生支持理解 + 生成
  2. 保留强单模态能力
  3. 能随模型/数据规模高效扩展

3. ERNIE 5.0 的核心设计思路

  • 不是 给语言模型加外挂,而是所有模态从零一起训练
  • 把文本、图像、视频、音频映射到共享 Token 空间
  • 统一用 Next-Group-of-Tokens Prediction 目标训练,消除模态边界。
  • 超稀疏 MoE 架构 + 与模态无关的专家路由,不按模态分配专家。

"Next-Group-of-Tokens Prediction"(或称多Token预测,Multi-Token Prediction, MTP)是一种让大语言模型在每次运算中,不再只预测下一个词,而是能一口气预测后续多个词的训练技术。它是对经典的"下一个词预测"(Next-Token Prediction, NTP)的一次重要升级。

  1. 🧠 核心工作原理
    改造模型:在标准的大模型基础上,为其增加多个独立的"预测头",每个头负责预测一个特定位置的未来Token。
    设计损失函数:模型的损失值由所有预测头产生的预测误差共同决定,从而驱动模型学习更长远的依赖关系。
  2. 🚀 核心优势
    🎯 更强的宏观规划能力:预测多个Token迫使模型"站得高,看得远",更擅长处理编程、数学等需要严谨逻辑和长期规划的任务。
    ⚡️ 推理速度飙升:一次性生成多个Token,减少了模型"自言自语"的步数,实现了高达3倍的推理速度提升。
    📈 性能表现更优异:在编程任务上效果尤为显著,例如13B参数的模型在HumanEval基准测试中的解题率提升了12%,在MBPP上则提升了17%。

4. 两大创新技术

(1)弹性训练(Elastic Training)

  • 一次预训练,直接生成一组不同大小、深度、稀疏度的子模型
  • 不用单独训小模型,不用后压缩。
  • 适配不同硬件、内存、时延场景。

(2)稳定高效的多模态强化学习

解决稀疏奖励、熵崩塌、训练推理不一致等问题,让万亿参数 MoE 能稳定做 RL。

5. 基础设施支撑

  • 混合并行策略支撑万亿参数训练
  • Tokenizer 与主干网络解耦部署
  • FlashMask 加速多模态注意力
  • 可扩展的分布式 RL 架构

Architecture(架构)

一、整体架构总览

ERNIE 5.0 采用超稀疏混合专家(MoE)架构 ,在单一自回归框架内融合文本、图像、视频、音频四大模态的理解与生成。

  • 核心:共享统一Transformer主干 + 专用视觉/音频Tokenizer
  • 目标:所有模态共享下一组Token预测(Next-Group-of-Tokens Prediction) 训练目标,实现端到端深度跨模态交互

二、2.1 统一自回归主干 + 超稀疏MoE

  1. 统一模态训练范式
    • 多模态输入映射到共享Token空间,序列化后统一建模
    • 文本:标准下一个Token预测(NTP)+ 多Token预测(MTP)
    • 视觉:下一帧与尺度预测(NFSP)
    • 音频:下一个编解码器预测(NCP)
    • 全模态对齐自回归生成逻辑,消除模态优化差异
  2. 超稀疏MoE与模态无关专家路由
    • 路由决策基于统一Token表征,而非模态标识,所有模态共享专家池
    • 专家激活率低于3%,高效扩容模型容量,计算成本可控
    • 无辅助损失的负载均衡策略,保障万亿参数规模训练稳定
  3. 统一表征设计
    • 同时学习高层语义 (支撑理解)与细粒度感知细节(支撑生成)
    • 理解与生成相互强化,单一支干兼顾感知、推理、创作

三、2.2 视觉建模(图像+视频统一处理)

图像视为单帧视频,统一设计视觉理解与生成流程:

  1. 视觉Token化(2.2.1)
    • 因果2D多尺度Tokenizer → 扩展为3D卷积Tokenizer,统一图像/视频编码
    • 逐比特量化 + 渐进式切换低/高比特Tokenizer,缓解训练初期不稳定
  2. 视觉理解(2.2.2)
    • 双路径混合表征:CNN(感知细节)+ ViT(语义特征)
    • 注意力块融合(Attention-based Patch Merger):优于传统MLP融合,大幅提升文档/图表/通用视觉理解精度
  3. 视觉生成(2.2.3)
    • 范式:下一帧与尺度预测(NFSP),图像按尺度生成、视频按帧+尺度生成
    • 位置编码:统一时空旋转位置编码(Uni-RoPE),适配多模态时空位置
    • 优化:随机翻转历史Token增强长序列鲁棒性;级联扩散细化器,提升高分辨率画质
  1. 背景回顾:我们有什么?
    在 ERNIE 5.0 的视觉理解路径中,每个图像会同时经过两个编码器:
  • CNN :输出一堆局部细节特征 (比如边缘、纹理、小字体的笔画)。这些特征空间对齐好,但缺乏全局语义。
  • ViT :输出一堆全局语义特征 (比如"这是一个图表标题"、"这是一段文字块")。这些特征语义强,但局部细节可能模糊

现在我们要把这两路特征合并 成一个统一的表示,送给后面的主干模型。问题来了:这两路特征在空间结构上不对齐 (CNN 的特征图尺寸、ViT 的 patch 划分可能不一样),而且信息层次不同(细节 vs 语义)。

  1. 传统 MLP 融合怎么做?为什么不好?
    一个直观的方法:把每个位置的 CNN 特征和 ViT 特征直接拼起来 ,然后扔进一个 MLP(多层感知机)压缩成想要的维度。
    这就像把两张不同风格的照片简单叠在一起,然后让一个滤镜去处理------每个位置独立处理 ,不考虑周围 patch 之间的关系。
    结果就是:
  • 特征干扰:CNN 的细节噪声会污染 ViT 的语义,ViT 的粗略化会抹掉 CNN 的精细信息。
  • 缺乏空间交互 :比如图表中一个数据点(小圆点)和它旁边的标签文字,它们之间的对应关系需要跨 patch 的注意力才能捕获,MLP 做不到。
  • 文档/图表理解尤其吃亏:文档里一个小号字体(需要 CNN 看清笔画)和它所属的段落标题(需要 ViT 理解语义),如果不做跨区域交互,很容易认错或忽略。
  1. Attention-based Patch Merger 是怎么做的?
    ERNIE 5.0 的设计分四步(见报告 2.2.2):
  2. 对齐维度:把 CNN 特征投影到和 ViT 特征相同的维度(这样它们才能"对话")。
  3. 按组拼接 :不是把单个 CNN 特征和单个 ViT 特征拼起来,而是把空间上相邻的一组 patch(比如 4 个)的 CNN 特征和 ViT 特征全都放在一起,形成一个 (2K) 个 patch 的序列(K 是每组 patch 数量)。
  • 这样,每个"融合单元"里既有局部细节(CNN),又有局部语义(ViT),还包含空间邻居的信息。
  1. 多头自注意力 :对这个 (2K) 个 patch 的序列做自注意力
  • 注意力的作用:让每个 patch 能够"看到"组内所有其他 patch,自动学习哪些 patch 应该互相加强、哪些应该抑制。
  • 例如:ViT 的语义 patch 发现某个 CNN 细节 patch 与自己高度相关,就会给它更高的权重;反之,不相关的噪声细节会被忽略。
  1. 池化压缩:最后把这一组 patch 的注意力输出做平均池化,得到一个紧凑的融合 token。
  2. 为什么这比 MLP 好?
    | 对比项 | MLP 融合 | Attention-based Patch Merger |
    |--------|-----------|-------------------------------|
    | 交互范围 | 每个位置独立,无跨 patch 交互 | 组内所有 patch 互相交互,能建模局部空间关系 |
    | 权重学习 | 固定权重(训练后固定) | 动态权重(根据输入内容自适应) |
    | 抗干扰 | 细节和语义简单叠加,互相污染 | 注意力可以"选择"有用的信息,忽略无关的 |
    | 适合任务 | 通用图像分类尚可 | 文档/图表理解(需要精细定位+语义关联)效果飙升 |
    打个比方:
  • MLP 融合:就像把一堆乐高积木(CNN 细节)和一幅画(ViT 语义)胡乱塞进一个袋子,摇一摇就拿出来。
  • Attention 融合:像有一个聪明的助手,先把积木和画按小块拆开,然后根据每块的内容决定哪些应该粘在一起、哪些应该扔掉,最后拼出一个完整模型。
  1. 实际效果(报告原文)
    "The proposed attention‑based aggregation module consistently outperforms both CNN‑only and ViT‑only baselines ... with particularly pronounced gains in document and chart understanding as well as general visual understanding tasks."
    简单说:在文档理解(比如识别发票里的文字和表格)、图表理解(比如看懂折线图的趋势和数据点)、通用视觉问答上,Attention 融合比 MLP 融合或单一路径都要好一大截。

四、2.3 音频建模

基于自回归Token框架,实现音频理解与高保真生成:

  1. 音频Token化(2.3.1)
    • 残差矢量量化(RVQ),Token率12.5Hz
    • 第一层Token蒸馏Whisper知识,捕获音频语义;其余层捕获音色、韵律等细粒度声学信息
  2. 音频理解与生成(2.3.2)
    • 深度自回归架构:避免多码本Token展平为长序列
    • 理解:深度加法嵌入,融合多残差层音频特征
    • 生成:下一个编解码器预测(NCP),粗到细分层生成;生成结果回传 conditioning 后续预测,支持可控音色合成

Pre-Training

本章是模型习得跨模态通用表征 的核心环节,完整包含3.1 预训练数据构建3.2 训练策略方案 、**3.3 一次性全弹性训练(核心创新)**三部分,核心目标是:一次预训练,产出一组不同规格的子模型,兼顾性能、训练成本与部署灵活性,完全解决传统大模型"训完再压缩"的痛点。

3.1 Pre-Training Data 预训练数据

3.1.1 数据整体定位

ERNIE 5.0 采用从零开始联合训练 所有模态(文本/图像/视频/音频),因此需要大规模、高保真、多样性 的多模态数据集,且从训练第一天就同时灌入所有模态数据,而非后期拼接。

数据严格分为两大类:文本数据多模态数据,并通过标准化平台统一管理与清洗。

3.1.2 文本数据(Text Data)

  1. 数据来源
    覆盖多语言网页爬取数据、精洗语料、书籍、科研论文、代码仓库、结构化知识源,兼顾广度、多样性与语言丰富度。
  2. 文本Tokenizer 专项优化
    • 编码格式:采用UTF-16BE编码,为非拉丁字母语言提供稳定的字节级回退,压缩表示、提升多语言训练吞吐量。
    • 正则化:使用BPE Dropout,降低模型对高频模式的过拟合。
    • 中文优化:过滤超长无空格短语,用分词工具拆解,降低词汇稀疏性,提升训练效率与泛化能力。
  3. 数据规模:万亿级文本Token,是模型语言能力的基础。

3.1.3 多模态数据(Multimodal Data)

  1. 数据构成
    • 配对数据:图像-文本、视频-文本、音频-文本配对样本。
    • 交错数据:文本与图像/视频/音频混合的交错多模态序列。
    • 配套信息:所有数据附带元数据、字幕、描述信息,建立跨模态语义对齐。
  2. 数据价值
    建立文本概念与视觉/音频上下文的时空关联,让模型同时学会单模态感知跨模态理解/生成
  3. 极致数据清洗
    • 启发式+模型双重过滤:剔除低质、不安全内容。
    • 全量去重:避免模型记忆化。
    • 去污染:严格剔除测试基准数据,保证评估公平。
  4. 数据规模:万亿级文本Token + 海量多模态样本,平衡规模与语义保真度。

3.2 Training Recipe 训练策略(训练食谱)

核心:多阶段渐进式预训练,逐步扩展上下文长度,严格控制优化稳定性、算力利用率、模态平衡。

3.2.1 阶段1:8K 初始预训练

  1. 上下文长度:最大 8K Token
  2. 学习率策略 :WSD(预热-稳定-衰减)
    • 线性预热:2000步从0升至峰值 1×10⁻⁴
    • 预热后全程保持恒定学习率
  3. 批大小策略 :全局批大小从 14M Token 逐步提升至 56M Token,提升大规模训练稳定性与效率。
  4. 长上下文兼容 :RoPE位置编码基值直接设为 1,000,000,后续扩展上下文无需重参数化/插值,实现无损长上下文训练。
  5. MoE专项配置 :无辅助损失负载均衡的偏置更新率 = 1×10⁻⁴
  6. 多Token预测(MTP) :损失权重 = 0.3

3.2.2 阶段2:32K & 128K 中期训练

  1. 上下文长度:逐步扩展至 32K → 128K Token,全局批大小保持不变。
  2. 学习率策略 :切换为余弦退火,从 1×10⁻⁴ 逐步降至 1×10⁻⁵。
  3. MoE专项优化 :负载均衡偏置更新率降至 1×10⁻⁵,抑制大规模MoE训练的迭代振荡。
  4. MTP调整:损失权重从0.3降至0.1,适配长上下文优化。
  5. 模态平衡 :引入后验损失重加权,将文本/视觉/音频的自回归损失缩放到同一区间,避免模态间优化失衡。

3.3 Once-For-All with Elastic Training 一次性全弹性训练(本章核心创新)

3.3.1 研发背景:传统大模型的致命痛点

传统万亿参数模型采用**训练→压缩(剪枝/蒸馏)**流程,存在三大缺陷:

  1. 压缩需要单独阶段,算力与工程成本极高。
  2. 压缩后架构固定,想换尺寸必须重新压缩。
  3. 小模型性能损耗大,无法适配多样化部署场景。

3.3.2 弹性训练核心思想

不做后压缩,预训练中同时训练"全模型+一堆子模型" ,单次预训练直接产出不同深度、不同专家数量、不同稀疏度的一整套模型家族,子模型直接继承全模型知识,无需单独训练。

3.3.3 三大弹性维度(Figure 4 完整对应)

ERNIE 5.0 从深度、宽度、稀疏度三个正交维度实现弹性,训练时动态采样子网络,一次反向传播同步优化全模型与子模型。

(1)弹性深度 Elastic Depth
  • 作用:随机调整激活的Transformer层数,适配不同算力的推理部署。
  • 训练策略:
    • 75% 概率:使用全深度模型,保证所有层充分优化。
    • 25% 概率:随机采样浅层子网络,让模型学会层移除后仍保持有效表征。
  • 效果:浅层子模型性能平滑下降,可直接部署,无需重训。
(2)弹性宽度 Elastic Width
  • 作用:动态调整MoE层的总专家数量,适配内存受限设备。
  • 训练策略:
    • 80% 概率:激活全部专家,保持全能力。
    • 20% 概率:随机采样部分专家,窄化模型宽度。
  • 效果:小宽度模型可在低内存设备运行,性能损失极小。
(3)弹性稀疏度 Elastic Sparsity
  • 作用:动态调整单Token激活的专家数(top-k),提升推理速度、降低时延。
  • 训练策略:
    • 80% 概率:使用默认top-k路由。
    • 20% 概率:随机采样更小的top-k,减少单Token激活专家数。
  • 效果:推理时top-k降至25%,解码提速超15%,精度几乎无损失。

3.3.4 弹性训练的核心优势

  1. 一次训练,全尺寸覆盖:无需单独训大/中/小模型,无重复算力浪费。
  2. 子模型即插即用:子模型直接继承全模型知识,后续微调直接用。
  3. 极致部署适配:自由权衡性能、模型大小、推理时延,适配从云端到边缘的全场景硬件。
  4. 性能无损 :仅用35.8%总参数、53.7%激活参数,就能达到全模型99%+的性能。

3.3.5 论文实证结论

弹性训练不是简单的"模型压缩",而是原生训练范式

  • 弹性深度:轻微提升全模型性能,带来正则化效果。
  • 弹性宽度:全容量下几乎无性能下降,窄模型可用。
  • 弹性稀疏度:推理稀疏度大幅降低,速度显著提升,精度平滑下降。

第四章 Post-Training(后训练 / 多模态强化学习)

第四章 整体概览

ERNIE 5.0 后训练完全沿用ERNIE 4.5的两阶段框架,并针对统一多模态+超稀疏MoE做专项升级:

  1. 第一阶段:监督微调(SFT)
    用高质量多模态指令对数据微调,让模型学会听懂指令、输出结构化结果、完成长思维链推理,奠定基础交互能力。
  2. 第二阶段:统一多模态强化学习(UMRL)
    将推理、智能体、指令遵循、多模态生成等任务融合进多阶段RL流程,通过奖励信号优化模型行为,实现多模态任务的均衡性能。
  3. 核心支撑:统一验证器系统
    为文本/图像/视频/音频的多模态响应生成精准、一致的奖励信号,是RL训练的监督基础。

后训练面临的三大核心挑战(论文明确提出)

ERNIE 5.0的超稀疏MoE+全模态统一架构,让RL训练比普通大模型难得多,具体挑战:

  1. 计算成本爆炸
    万亿参数模型的RL Rollout(生成探索样本)占总训练时间90%以上,算力消耗极高。
  2. 训练-推理不一致+熵崩塌
    超稀疏MoE的动态路由会放大训练与推理的数值偏差,导致RL早期策略熵骤升/骤降(熵崩塌),模型丧失跨模态融合能力,出现模态偏见。
  3. 多模态稀疏奖励失效
    多模态复杂任务(如视觉推理、音频理解)的奖励信号极度稀疏,传统RL(GRPO/DAPO)在奖励全为0时无梯度,难任务训练完全停滞。

训练-推理不一致:

  1. 曝光偏差:训练时使用真实上下文(Teacher Forcing),推理时使用自身生成的上下文。导致错误累积,影响生成质量,如生成内容重复、不连贯或产生幻觉。例子:要生成句子"我爱北京天安门"。训练时,模型在预测"爱"时,看到的历史是"我";预测"北"时,看到的历史是"我爱"(是正确的,即使模型之前把"爱"预测成了"恨",这里依然给它看"我爱")。

  2. RLHF / RL 场景里的"训推误差":

    在 LLM 的 RLHF、PPO、GRPO 等训练里,"训练-推理不一致"更多指:

    • 训练过程实际包含两步:
      • Rollout(推理/采样):用当前策略生成一批回答,用来算奖励;
      • 训练/更新:在生成的数据上算梯度、更新策略参数。
      • 但这两步通常由 不同引擎 执行:
      • Rollout:高度优化的推理引擎(例如 vLLM、SGLang);
      • 训练:分布式训练框架(例如 Megatron-LM、FSDP 等)。
      • 即便用的是同一份模型参数,由于下面这些差异,会得到不同的"策略分布":
    • 浮点精度与算子实现:
      • 训练常用 BF16,推理为了吞吐可能用 FP16/FP8 或专用 kernel;
      • 不同精度 + 不同 reduction 顺序会带来舍入与累积误差,导致同样的输入输出不一样的 log-prob。
      • 并行策略:TP/PP/DP 不同切分,通信顺序不同,也会放大数值差异;
      • MoE 等结构:路由本身对数值敏感,微小差异会选不同的专家,再进一步放大不一致。
  3. 训推不一致在 RL 中怎么变成"稳定性炸弹"?

    在 PPO/GRPO 这类算法里,梯度估计里会出现"概率比率"(rollout 分布 / 训练分布)之类的项,例如策略梯度形式里会用 π_train 和 π_rollout 的比值做重要性采样。

    如果训推不一致严重:

    • 梯度估计有偏且高方差:训练过程不再是对真实目标的无偏优化,训练会震荡甚至崩溃;
    • 部署-训练性能拉开差距:训练看起来 OK,但上到真实推理引擎效果却拉胯;
    • 在长序列/大模型上,低概率 token 处的误差被放大,在序列级累积。

4.1 Enhancing Rollout Efficiency with Unbiased Replay Buffer

(用无偏回放缓冲区U-RB提升Rollout生成效率)

1. 行业痛点:Rollout的长尾低效问题

RL训练中,响应长度呈长尾分布:少数极长的推理/生成任务会卡住整个批次,导致GPU大量闲置、利用率极低,是RL效率低的核心原因。

2. 现有方案的缺陷:APRIL算法

APRIL通过超额分配请求、提前终止生成提升速度,但会导致:

  • 短响应(简单任务)优先进入训练,长响应(难任务)被延后
  • 数据难度分布非平稳,模型过早拟合简单任务,难任务性能极差
  • 最终收敛效果差,模型泛化能力下降
3. ERNIE 5.0 解决方案:U-RB无偏回放缓冲区

U-RB是APRIL的无偏升级版本 ,核心是保留数据顺序约束,既提速又保证数据分布公平

(1)核心结构
  • 高吞吐量推理池P_infer:容量=训练批大小×缓冲系数,并行生成所有Rollout样本
  • 训练池P_train :容量=标准训练批大小,仅收集当前迭代分配的完整样本用于训练
(2)运行机制
  1. 初始化时,固定当前迭代的数据组,仅允许该组数据参与本轮训练
  2. 推理池并行生成所有样本,直到当前组最长的样本生成完成
  3. 完整样本从推理池移入训练池,再启动RL参数更新
  4. 未完成的样本留到下一轮继续生成,不丢弃、不提前截断
(3)核心效果
  • 彻底解决长响应卡批次问题,GPU利用率拉满
  • 严格保留原始数据分布,无偏训练,不牺牲难任务性能
  • Rollout生成效率提升50%以上,是万亿模型RL可落地的关键工程优化
4. 论文可视化对比(Figure 5)
  • Sync RL:长任务阻塞整批,GPU大量闲置
  • APRIL:提前终止,数据分布偏置
  • U-RB:有序生成、无偏分布、GPU无闲置

4.2 Stabilizing Training with Mitigated Entropy Collapse

(缓解熵崩塌,实现稳定训练)

1. 核心问题:多模态熵崩塌
  • 现象:RL早期策略熵急剧波动(骤升/骤降)
  • 危害 :模型丧失跨模态信息融合能力,出现模态偏见(比如只看文本、忽略视觉/音频)
  • 根源
    1. 训练/推理引擎数值不一致,MoE动态路由加剧该问题
    2. 模型过早过拟合简单查询,丧失探索能力
2. 解决方案1:MISC 多粒度重要性采样裁剪
(1)技术背景

原始IcePop+GSPO算法会序列级裁剪低熵响应,导致大量有效样本被丢弃,直接引发熵崩塌。

(2)MISC改进
  • 修正为混合粒度采样,不再一刀切裁剪整序列
  • 模态敏感度动态调整信任域,平衡探索与利用
  • 避免模型过早收敛到"安全但平庸"的策略,保留多模态推理灵活性
(3)效果

彻底解决RL早期熵崩塌问题,训练曲线全程稳定(论文Figure 6深色线)。

3. 解决方案2:WPSM 优质样本掩码
(1)核心思路

把训练梯度预算从"已经学好的简单任务"转移到"难任务/稀疏奖励任务"

(2)运行机制
  1. 跟踪每个查询的平均成功率
  2. 准确率超阈值+策略熵低于稳定值的"优质学好样本",进行掩码屏蔽
  3. 被掩码的样本不参与梯度更新,节省算力给难样本
(3)效果
  • 缓解模型过拟合简单查询导致的熵崩塌
  • 大幅提升难任务(如数学推理、复杂视觉理解)的性能

4.3 Boosting Sample Efficiency with Hint-based Learning

(基于提示的学习,提升稀疏奖励下的样本效率)

1. 核心痛点:稀疏奖励失效

传统RL(GRPO/DAPO)在base模型完全做不出的难任务 上,所有Rollout样本奖励=0,无梯度信号,训练完全停滞。

2. 解决方案:AHRL 自适应提示强化学习
(1)核心思想

给难任务注入部分思考骨架(think skeleton),把复杂问题拆解为中间步骤,降低探索难度,让模型先学会"分步做",再学会"自己做"。

(2)运行机制
  1. 对原始查询x,拼接前p_hint个思考Token 作为提示,生成增强查询xˉ(p)\bar{x}^{(p)}xˉ(p)
  2. 提示比例退火
    • 训练初期:高比例提示,给模型"脚手架"
    • 训练后期:逐步降低提示比例,直到完全无提示自主推理
  3. 提示比例公式:phint(xt)=pinitial⋅exp(−γ⋅t⋅passinitialx)p_{hint}(x^t)=p_{initial}·exp(-\gamma·t·pass_{initial}^x)phint(xt)=pinitial⋅exp(−γ⋅t⋅passinitialx)
    • t:训练迭代次数
    • pass_initial^x:SFT模型在该查询上的通过率(越难,初始提示越多)
(3)效果
  • 解决稀疏奖励无梯度问题,难任务样本效率提升10倍以上
  • 模型逐步掌握复杂推理,最终脱离提示也能完成任务
  • 多模态推理、数学难题、复杂文档理解性能大幅提升

insight

🤖 1. 大模型更"偏爱"给语言分配脑力 在引入了MoE(混合专家)架构的原生多模态训练里,哪怕研究员已经在代码里加上了"负载均衡(强制端水)"的机制,AI还是会自发地打破均衡:它会把绝大多数的"专家(神经元网络)"偷偷分配给文本,而只留小部分给视觉。

🧠 2. 语言是"参数渴求型",视觉是"数据渴求型" 文心5.0的报告里把这个本质揭露得很透彻:文本/语言能力的突破,极其依赖模型规模的扩大(需要更大的脑容量,即参数);而视觉能力的提升,则更依赖于你喂给它多庞大、多丰富的画面(需要更广的阅历,即数据量)。

相关推荐
dog2502 小时前
细看高维空间中距离度量失效
开发语言·php
ZC跨境爬虫2 小时前
dankoe视频笔记:如何培养对自己喜欢之事的痴迷感
人工智能·笔记·搜索引擎
码云数智-大飞2 小时前
Rust的所有权模型如何消除内存安全问题?与C++的RAII有何异同?
开发语言
追风少年ii2 小时前
HD文献分享(正刊)--结肠炎的表观遗传记忆促进肿瘤生长
人工智能
西陵2 小时前
别再写 Prompt 了Spec Mode 才是下一代 AI 编程范式
前端·人工智能·ai编程
如意猴2 小时前
【前端】002--怎样制作一个简历界面?
开发语言·前端·javascript
冰西瓜6002 小时前
深度学习的数学原理(二十六)—— 多头注意力
人工智能·深度学习
夜珀2 小时前
OpenTiny NEXT 从入门到精通·第 6 篇
开发语言·前端框架
子兮、2 小时前
DotCloudLib点云后处理算法库首次开源!
人工智能·算法库