论文笔记：Multi-Head Mixture-of-Experts

UQI-LIUWJ2025-02-15 8:07

2024 neurips

1 背景

稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B，表现可以媲美LLaMA-2 70B】
- 但它也有两个问题
  - 专家激活率低（下图左）
    - 在优化时只有一小部分专家会被激活
    - ------>在学习应对复杂任务的大量专家时，会出现性能次优和效果不佳的问题
  - 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
------>提出了多头混合专家（MH-MoE）
- 采用了多头机制，可将每个输入 token 分成多个子 token
- 然后将这些子 token 分配给一组多样化的专家并行处理，之后再无缝地将它们整合进原来的 token 形式
MH-MOE的优势
- 专家激活率更高且扩展性更好
  - MH-MoE 能优化几乎所有专家，从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
- 具有更细粒度的理解能力
  - MH-MoE 采用的多头机制会将子 token 分配给不同的专家，从而可以联合关注来自不同专家的不同表征空间的信息，最终获得更好更细粒度的理解能力。