MOE架构

定义

MoE(Mixture of Experts)是一种新兴的模型架构,广泛应用于各种闭源大模型中。传统的大模型都是单个模型进行推理,推理时使用全部的参数,而MOE则是借鉴了传统机器学习中的ensemble思想,将transformer模型的每个FFN层替换为一个MoE层。MoE层包含一个门控网络和若干个专家网络。

负载均衡

1. KeepTopK 策略:引入随机性的 "公平分配"

KeepTopK 是最基础也最常用的负载均衡策略,核心思想是 "引入噪声 + 强制选优",避免路由器过度依赖热门专家。

2. 辅助损失函数:用数学约束实现均衡

仅靠策略调整难以完全解决负载均衡问题,因此研究者在主损失(如交叉熵损失)之外,引入 "辅助损失(Auxiliary Loss)",将 "专家使用均匀性" (各个专家模块被激活的频率是否均衡。它衡量的是:模型是否公平地利用了所有专家,而不是偏向某几个专家)纳入模型优化目标

(1)核心逻辑

通过计算所有专家的 "使用重要性差异"(不同专家对模型最终输出的贡献程度的高低),迫使模型降低差异,实现公平分配。

方式一:Auxiliary-Loss-Free Load Balancing(辅助无损负载均衡)

应用Auxiliary-Loss-Free Load Balancing时,仅在选择topk个亲合度分数的时候,为每一个专家添加一个偏置量 (这个偏置量仅仅用于topk筛选,不加入后续的权重计算)。在每个训练步骤结束的时候,如果某个专家过载,则按照某一特定比例减少其偏置量;如果某个专家负载不足,则相应的按照同一比例增加其偏置量。

3. 专家容量:限制 "工作量" 的硬性约束

负载不均衡不仅体现在 "选择哪些专家",还体现在 "每个专家处理多少 token"。即使专家被选中的次数相近,若大量 token 集中路由到某几个专家,仍会导致训练不充分。

(1)专家容量的定义

专家容量(Expert Capacity)是指单个专家在一个批次中最多能处理的 token 数量,设为。当某专家处理的 token 数量达到时,后续分配给该专家的 token 会被路由到次优专家。

(2)容量计算与调整

专家容量通常由 "容量因子(Capacity Factor)" 控制,计算公式为:

其中:

为批次中 token 的总数;

为每个 token 选择的专家数(Top-k);

为专家数量;

为容量因子(超参数,通常设为 1.0~1.2)。

(3)Token 溢出处理

若所有候选专家均达到容量上限,剩余 token 将跳过当前 MoE 层,直接进入下一层(称为 Token Overflow)。为减少溢出对性能的影响,通常需合理设置容量因子:过大会浪费算力,过小会导致大量溢出。

图14展示了当专家模块的溢出情况,FFNN1(左)承担了大部分的tokens任务,从而降低了整体的性能。

Switch Transformer:简化 MoE 的负载均衡方案

Switch Transformer 是最早解决 MoE 训练不稳定性的经典架构,其核心贡献是通过 "简化路由 + 优化容量控制",降低 MoE 的实现难度,同时提升训练稳定性。

相关推荐
贺国亚13 小时前
Agent参考架构
架构
程序员魔丸13 小时前
AI领域智能体(Agent)详细介绍
架构·agent
@insist12313 小时前
系统架构设计师-特定领域软件架构与软件产品线
架构·系统架构·软考·系统架构设计师·软件水平考试
春天花会开13114 小时前
PDSG架构/五步法深度解析
架构
张忠琳14 小时前
【kubevirt】(virt-launcher Part 6)virt-launcher 设备/网络/存储/外设层
云原生·架构·kubernetes·kubevirt
szxinmai主板定制专家15 小时前
基于 ARM+FPGA精密多轴实时运动控制卡设计方案,适用于半导体设备等高精度领域(一)
arm开发·人工智能·嵌入式硬件·fpga开发·架构·语音识别
达达尼昂16 小时前
AI Native 工程实践 : agent 自动化测试
前端·后端·架构
誰能久伴不乏16 小时前
工业级 Modbus 上位机架构:基于滴答引擎与状态锁的高并发调度器
c++·qt·架构
小小王app小程序开发16 小时前
陪诊小程序开发功能深度分析:功能架构、业务逻辑与落地要点
大数据·架构