论文略:ACloser Look into Mixture-of-Experts in Large Language Models

202406 arxiv

关于这几个MOE的详细实验

  • 主要实验发现:
    • Mixtral可能包含具有独特属性的专家
    • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
    • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
    • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
    • 门控嵌入的相似性和 Wgate 的相似性表现出正相关
  • Mixtral 和 DeepSeek 不同专家的输出在深层(最后几层)之间差异较大(差异更为明显)
  • 专家输出的平均热力图类似于神经元级相似性图
    • ------>权重相似性度量可以反映输出相似性
  • Grok专家展示出较高的输出相似性
相关推荐
OJAC11112 小时前
AI跨界潮:金融精英与应届生正涌入人工智能领域
人工智能·金融
机器之心12 小时前
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
人工智能·openai
可观测性用观测云12 小时前
观测云 MCP Server 接入和使用最佳实践
人工智能
掘金一周12 小时前
大部分人都错了!这才是chrome插件多脚本通信的正确姿势 | 掘金一周 11.27
前端·人工智能·后端
xier_ran12 小时前
深度学习:生成对抗网络(GAN)详解
人工智能·深度学习·机器学习·gan
ModestCoder_12 小时前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
海边夕阳200613 小时前
【每天一个AI小知识】:什么是循环神经网络?
人工智能·经验分享·rnn·深度学习·神经网络·机器学习
2501_9181269113 小时前
如何用ai做开发
人工智能
f***a34613 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
用户51914958484513 小时前
BBDown:高效便捷的哔哩哔哩视频下载工具
人工智能·aigc