论文笔记:Autonomy-of-Experts Model

202501 arxiv

1 intro

  • MoE中常被忽视的一个关键问题是路由器的决策过程与专家执行之间的分离
    • 路由器无法直接评估专家的能力,因此它对专家的选择基本上是没有标签的预测
    • 如果路由器做出了错误的预测,选择的专家可能会试图处理这些令牌,但未能有效地处理,导致训练损失增加
      • 为减少损失,专家可能需要调整其参数以处理这些令牌,可能与原本的专业能力产生冲突
      • 另一种可能性是路由器必须通过试错来学会做出更好的决策,因为它没有意识到哪些专家更适合特定任务,这样会浪费大量的训练步骤。
  • ------>论文提出了一种新的MoE范式------专家自治(AoE)
    • 这一设计基于专家能够意识到其处理输入的能力,并且这种意识反映在其内部激活的规模上
    • AoE允许专家决定是否自主处理输入
  • 通过专家的自治,路由器的决策过程得以消除,从而降低了训练损失。
    • 预训练了拥有最多4百亿参数的AoE语言模型,并且在下游任务中优于传统的MoE模型,表现出更高的计算效率

2 方法

3 实验

3.1 一般设置

  • 训练了由12层组成的小型语言模型,每层包含12个注意力头。
  • 每层包含8个专家,选取Top-K = 2个专家
  • 为MOE设置dmodel=768,dffn=3072
  • AOE的dlow和dwide值是可变的
    • 为了确保AoE模型的总参数量与MoE模型相当,当调整dlow时

3.2 AOE下游表现 VS MOE下游表现

  • AoE配置在平均准确率方面超越了最佳表现的MoE配置
    • AoE在没有任何辅助损失的情况下,超越了传统的MoE模型
  • 调整dlow之后,性能变化不大
  • 性能的提升是否源自Wg矩阵的分解?
    • 通过比较配置3和配置2,检查了专家权重矩阵分解对性能的影响
    • ------>分解对性能的影响并不显著,这与LLM权重本身就是低秩的发现一致

3.3 不同专家选择策略的影响

3.4 负载均衡

AoE在负载平衡方面优于传统的MoE模型,无论是否使用负载均衡loss

相关推荐
智算菩萨8 小时前
【论文精读】Automated machine learning for positive-unlabelled learning
论文阅读·人工智能·机器学习·论文笔记·贝叶斯优化·自动机器学习·无标签学习
数说星榆18111 小时前
电脑流程图模板精选 中文适配一键修改超方便
论文阅读·毕业设计·流程图·论文笔记·毕设
movigo7_dou18 小时前
SIFT的一些内容
论文阅读·图像处理·学习·计算机视觉
QiZhang | UESTC1 天前
《Attention is all you need》论文阅读与代码实战
论文阅读
STLearner2 天前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
imbackneverdie3 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1233 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN4 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈4 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨4 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记