论文略:ACloser Look into Mixture-of-Experts in Large Language Models

202406 arxiv

关于这几个MOE的详细实验

  • 主要实验发现:
    • Mixtral可能包含具有独特属性的专家
    • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
    • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
    • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
    • 门控嵌入的相似性和 Wgate 的相似性表现出正相关
  • Mixtral 和 DeepSeek 不同专家的输出在深层(最后几层)之间差异较大(差异更为明显)
  • 专家输出的平均热力图类似于神经元级相似性图
    • ------>权重相似性度量可以反映输出相似性
  • Grok专家展示出较高的输出相似性
相关推荐
小润nature2 分钟前
Moltbot/OpenClaw Gateway 命令和交互
人工智能
tongxianchao3 分钟前
TOKEN MERGING YOUR VIT BUT FASTER
人工智能
自可乐7 分钟前
LangGraph从入门到精通:构建智能Agent的完整指南
人工智能·python·机器学习
下午写HelloWorld7 分钟前
差分隐私深度学习(DP-DL)简要理解
人工智能·深度学习
码农垦荒笔记8 分钟前
OpenClaw 实战 #02-1:新手一把过(原Clawdbot )保姆级安装教程-Mac版
人工智能·macos·openclaw
冀博11 分钟前
LangGraph实操-干中学
人工智能·ai
玉梅小洋18 分钟前
手机 App 云端存储云服务选型指南
人工智能·智能手机·手机·工具开发·手机app开发
deephub18 分钟前
让 AI 智能体学会自我进化:Agent Lightning 实战入门
人工智能·深度学习·大语言模型·agent
Loo国昌22 分钟前
【垂类模型数据工程】第四阶段:高性能 Embedding 实战:从双编码器架构到 InfoNCE 损失函数详解
人工智能·后端·深度学习·自然语言处理·架构·transformer·embedding
yunhuibin27 分钟前
VideoPipe环境搭建及编译ubuntu240403
前端·人工智能