论文略:ACloser Look into Mixture-of-Experts in Large Language Models

202406 arxiv

关于这几个MOE的详细实验

  • 主要实验发现:
    • Mixtral可能包含具有独特属性的专家
    • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
    • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
    • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
    • 门控嵌入的相似性和 Wgate 的相似性表现出正相关
  • Mixtral 和 DeepSeek 不同专家的输出在深层(最后几层)之间差异较大(差异更为明显)
  • 专家输出的平均热力图类似于神经元级相似性图
    • ------>权重相似性度量可以反映输出相似性
  • Grok专家展示出较高的输出相似性
相关推荐
北山小恐龙1 分钟前
针对性模型压缩:YOLOv8n安全帽检测模型剪枝方案
人工智能·深度学习·算法·计算机视觉·剪枝
IT_陈寒1 分钟前
JavaScript性能优化:7个V8引擎内部原理帮你减少90%内存泄漏的实战技巧
前端·人工智能·后端
非凡ghost4 分钟前
Topaz Video(人工智能视频增强软件)
人工智能·windows·学习·音视频·软件需求
余俊晖5 分钟前
从豆包手机等看GUI Agent:MobileRL GUI Agent训练框架和安卓XML预处理
人工智能·语言模型·自然语言处理·gui
upper20207 分钟前
数据挖掘08
人工智能·数据挖掘
upper20207 分钟前
数据挖掘07
人工智能·数据挖掘
从负无穷开始的三次元代码生活7 分钟前
深度学习知识点概念速通——人工智能专业考试基础知识点
人工智能·深度学习
upper20207 分钟前
数据挖掘06
人工智能·数据挖掘
码农小白猿8 分钟前
农产品溯源新风潮:IACheck如何精准校验区块链记录与物流数据一致性
人工智能·ai·iacheck
爱笑的眼睛1110 分钟前
深入 Django 表单 API:从数据流到高级定制
java·人工智能·python·ai