论文略:ACloser Look into Mixture-of-Experts in Large Language Models

202406 arxiv

关于这几个MOE的详细实验

  • 主要实验发现:
    • Mixtral可能包含具有独特属性的专家
    • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
    • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
    • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
    • 门控嵌入的相似性和 Wgate 的相似性表现出正相关
  • Mixtral 和 DeepSeek 不同专家的输出在深层(最后几层)之间差异较大(差异更为明显)
  • 专家输出的平均热力图类似于神经元级相似性图
    • ------>权重相似性度量可以反映输出相似性
  • Grok专家展示出较高的输出相似性
相关推荐
攻城狮7号7 分钟前
AI浪潮下的思辨:傅盛访谈之我见
人工智能·深度学习·agent
MaisieKim_16 分钟前
如何量化创新项目的成功标准
人工智能
Francek Chen36 分钟前
【深度学习优化算法】02:凸性
人工智能·pytorch·深度学习·优化算法·凸函数
寻丶幽风41 分钟前
论文阅读笔记——Large Language Models Are Zero-Shot Fuzzers
论文阅读·pytorch·笔记·深度学习·网络安全·语言模型
Eastmount1 小时前
[论文阅读] (38)基于大模型的威胁情报分析与知识图谱构建论文总结(读书笔记)
论文阅读·人工智能·大模型·知识图谱·威胁情报
智源研究院官方账号1 小时前
更强劲,更高效:智源研究院开源轻量级超长视频理解模型Video-XL-2
人工智能·开源
要努力啊啊啊1 小时前
GQA(Grouped Query Attention):分组注意力机制的原理与实践《一》
论文阅读·人工智能·深度学习·语言模型·自然语言处理
m0_748245172 小时前
KrillinAI:视频跨语言传播的一站式AI解决方案
人工智能·音视频
说私域2 小时前
定制开发开源AI智能名片S2B2C商城小程序在无界零售中的应用与行业智能升级示范研究
人工智能·小程序·开源·零售
蹦蹦跳跳真可爱5892 小时前
计算机视觉处理----OpenCV(从摄像头采集视频、视频处理与视频录制)
人工智能·python·opencv·计算机视觉·音视频