论文略:ACloser Look into Mixture-of-Experts in Large Language Models

202406 arxiv

关于这几个MOE的详细实验

  • 主要实验发现:
    • Mixtral可能包含具有独特属性的专家
    • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
    • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
    • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
    • 门控嵌入的相似性和 Wgate 的相似性表现出正相关
  • Mixtral 和 DeepSeek 不同专家的输出在深层(最后几层)之间差异较大(差异更为明显)
  • 专家输出的平均热力图类似于神经元级相似性图
    • ------>权重相似性度量可以反映输出相似性
  • Grok专家展示出较高的输出相似性
相关推荐
Tutankaaa1 天前
从被动接受到主动挑战:知识竞赛如何重塑学习价值
人工智能·经验分享·笔记·学习
Jmayday1 天前
机器学习基本理论
人工智能·机器学习
ZhengEnCi1 天前
01b-上下文向量与信息瓶颈
人工智能
王_teacher1 天前
机器学习 矩阵求导 完整公式+严谨推导
人工智能·线性代数·考研·机器学习·矩阵·线性回归
码以致用1 天前
DeerFlow Memory架构
人工智能·ai·架构·agent
ting94520001 天前
从零构建大模型实战:数据处理与 GPT-2 完整实现
人工智能
学点程序1 天前
Manifest:帮个人 AI Agent 降低模型成本的开源路由器
人工智能·开源
可观测性用观测云1 天前
观测云 x AI Agent:运维智能化的范式跃迁实践
人工智能
数数科技的数据干货1 天前
ThinkingAI携手华为云,共建企业级AI Agent平台Agentic Engine
人工智能·ai·华为云·agent
人工智能AI技术1 天前
春招急救:7天面试突击方案
人工智能