论文略：ACloser Look into Mixture-of-Experts in Large Language Models

UQI-LIUWJ2025-02-23 11:05

202406 arxiv

关于这几个MOE的详细实验

主要实验发现：
- Mixtral可能包含具有独特属性的专家
- DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral（DeepSeek和Grok专家的矩阵级相似性通常接近零，而Mixtral专家的相似性平均约为0.3）
- 如图1中的Mixtral热力图所示，不同专家的权重在较深层次的相似性较低（越深的层次，专家的多元性越大）
- Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
- 门控嵌入的相似性和 Wgate 的相似性表现出正相关
Mixtral 和 DeepSeek 不同专家的输出在深层（最后几层）之间差异较大（差异更为明显）
专家输出的平均热力图类似于神经元级相似性图
- ------>权重相似性度量可以反映输出相似性
Grok专家展示出较高的输出相似性

上一篇：记录一下_treafik使用Gateway-APi使用的细节参数

下一篇：数据库面试知识点总结

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中