论文阅读笔记——Mixtral of Experts

Mixtral 8×7B 论文

这个模型建立在 Mistral 7B 的架构上,但每层由8个前馈模块(即专家)组成。对于每个 token,路由网络在每层选择两个专家来处理当前状态并合并它们的输出。尽管每个 token 只能看到 2 个专家,但在每个时间步骤上选择的专家可以不同。因此虽然在推理过程中只能使用 13B 个活跃参数,但在访问过程中每个 token 可以访问 47B 个参数。

  • Mixtral 支持高达32,000个token的完整密集上下文长度;
  • 采用了混合专家层(Mixture of Experts,MoE)来替代原先的前馈网络块。

    给定 n 个专家网络 { E 0 , E 1 , ... ... , E n } \{E_0,E_1,......,E_n\} {E0,E1,......,En} ,每个专家层的输出值是通过将 x 输入门控网络 G ( x ) G(x) G(x) 的输出加权后,与每个专家网络 E i ( x ) E_i(x) Ei(x) 的输出相乘得到: ∑ i = 0 n − 1 G ( x ) ⋅ E i ( x ) \sum_{i=0}^{n-1}G(x)·E_i(x) ∑i=0n−1G(x)⋅Ei(x)。
    如果门控向量是稀疏的,就可以避免那些门控制为 0 的专家输出,一个简单有效的方法是采用 Top-K 进行 softmax 运算: G ( x ) : = S o f t m a x ( T o p K ( x ⋅ W g ) ) G(x):=Softmax(TopK(x·W_g)) G(x):=Softmax(TopK(x⋅Wg))
    在 Transformer 中,MoE 层替代了 Transformer 的前馈子块,并独立应用于每个 token。Mixtral 采用与 SwiGLU 架构相同的专家函数 E i ( x ) E_i(x) Ei(x),并设 K = 2,即每个 token 被路由到 2 个具有不同权重的 SwiGLU 子块:
    y = ∑ i = 0 n − 1 S o f t m a x ( T o p 2 ( x ⋅ W g ) ) i ⋅ S w i G L U i ( x ) y=\sum_{i=0}^{n-1}Softmax(Top2(x·W_g))_i · SwiGLU_i(x) y=i=0∑n−1Softmax(Top2(x⋅Wg))i⋅SwiGLUi(x)

实验结果

  • 常识推理(零样本):使用了包括 Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy/Challenge、CommonsenseQA 等在内的多个测试。
  • 世界知识(少样本,5个):选择了 NaturalQuestions 和 TriviaQA 作为评估工具。
  • 阅读理解(零样本):采用了 BoolQ 和 QuAC 进行测试。
  • 数学题解:使用 GSM8K(8个样本)和 MATH(4个样本)进行测试。
  • 编程任务:在 Humaneval(零样本)和 MBPP(3个样本)上进行评估。
  • 综合流行结果 :涵盖了 MMLU(5个样本)、BBH(3个样本)和 AGI Eval(3-5个样本,仅限英语多项选择题)。

    Mixtral 在编程和数学方面相较于 LLaMA 2 表现更出色。

    作者注意到连续的 token 经常被分配给相同的专家 ,且观察到有一定位置局部性,层编号越高,重复连续高于随机分配的比例越显著
相关推荐
洁洁!42 分钟前
从零开始在亚马逊云科技 EC2上部署DeepSeek R1大语言模型:完整实战指南
服务器·科技·语言模型
笑鸿的学习笔记1 小时前
虚幻引擎5-Unreal Engine笔记之常用核心类的继承关系
笔记·ue5·虚幻
半新半旧4 小时前
mongodb 学习笔记
笔记·学习·mongodb
一点.点5 小时前
SafeDrive:大语言模型实现自动驾驶汽车知识驱动和数据驱动的风险-敏感决策——论文阅读
人工智能·语言模型·自动驾驶
concisedistinct5 小时前
如何评价大语言模型架构 TTT ?模型应不应该永远“固定”在推理阶段?模型是否应当在使用时继续学习?
人工智能·语言模型·大模型
银河以北呀7 小时前
通过推测搜索加速大型语言模型推理 (SpecSearch) 论文总结
人工智能·语言模型·论文笔记
爱补鱼的猫猫8 小时前
22、近端策略优化算法(PPO)论文笔记
论文阅读·算法
开心星人8 小时前
【论文阅读】Reconstructive Neuron Pruning for Backdoor Defense
论文阅读·算法·剪枝
wangbaowo8 小时前
MySQL数据库下篇
数据库·经验分享·笔记·学习·mysql·安全
chennalC#c.h.JA Ptho8 小时前
生成了一个AI算法
经验分享·笔记·aigc