腾讯:专家激活替代LLM在MoE的路由分配

📖标题:Autonomy-of-Experts Models

🌐来源:arXiv, 2501.13074

🌟摘要

🔸混合专家(MoE)模型主要使用路由器将令牌分配给特定的专家模块,只激活部分参数,通常优于密集模型。我们认为,路由器的决策和专家的执行之间的分离是一个关键但被忽视的问题,导致了次优的专家选择和无效的学习。

🔸为了解决这个问题,我们提出了专家自主(AoE),这是一种新的MoE范式,专家自主选择自己来处理输入。AoE基于这样一种观点,即专家意识到自己有能力有效地处理代币,这种意识反映在其内部激活的规模上。在AoE中,路由器被删除;相反,专家会预先计算输入的内部激活,并根据其激活规范进行排名。只有顶尖的专家继续前进,而其他人则放弃了。通过低秩权重因子分解减少了预计算激活的开销。这种自我评估然后进行合作伙伴比较的方法确保了改进的专家选择和有效的学习。

🔸我们预训练了具有700M到4B个参数的语言模型,证明了AoE以相当的效率优于传统的MoE模型。

🛎️文章简介

🔸研究问题:传统混合专家模型(MoE)中路由器决策与专家执行之间存在分离,导致专家选择不理想和学习效果不佳。

🔸主要贡献:论文提出了自主专家模型(AoE),通过让专家自主决定是否处理输入,解决了传统MoE模型中的专家选择问题,并在下游任务中表现出色。

📝重点思路

🔸初步实验:通过移除预训练MoE模型中的路由器,探索并验证了模型中的专家能够通过其内部激活范数处理特定输入。

🔸AoE方法开发:基于初步实验的发现,改进专家架构,提出了自主专家模型(AoE),通过让所有专家处理每个输入并缓存其内部激活,然后根据激活范数排名选择前K个专家继续处理输入,其余专家终止处理,使专家能够自主决定是否处理输入。

🔸实验验证:通过一系列消融实验和对比实验,验证AoE方法的有效性和优越性。

🔸模型训练:使用RedPajama数据集训练AoE模型,采用AdamW优化器,设置学习率、批量大小等超参数。

🔸性能评估:在多个广泛使用的任务上评估AoE模型的性能,包括零样本和三样本测试。

🔎分析总结

🔸专家选择改进:AoE模型通过专家内部激活范数进行专家选择,显著提高了专家选择的准确性和效率。

🔸下游任务表现:AoE模型在下游任务中表现优于传统MoE模型,特别是在复杂任务上表现出更强的泛化能力。

🔸负载均衡:AoE模型在负载均衡方面表现优异,减少了专家负载不均的问题。

🔸训练效率:AoE模型在训练效率上接近传统MoE模型,同时减少了内存使用和计算开销。

🔸专家自评一致性:AoE模型中的专家在训练过程中逐渐形成一致的自评标准,减少了专家选择的不确定性。

💡个人观点

论文的核心在于取消MoE的路由器,让每个专家模块自行计算输入的激活范数,以此选择是否分配。

🧩附录

相关推荐
@心都23 分钟前
机器学习数学基础:44.多元线性回归
人工智能·机器学习·线性回归
说私域23 分钟前
基于开源AI大模型的精准零售模式创新——融合AI智能名片与S2B2C商城小程序源码的“人工智能 + 线下零售”路径探索
人工智能·搜索引擎·小程序·开源·零售
熊文豪26 分钟前
Windows本地部署OpenManus并接入Mistral模型的实践记录
人工智能·llm·mistral·manus·openmanus·openmanus开源替代方案·本地llm部署实践
IT猿手28 分钟前
2025最新群智能优化算法:海市蜃楼搜索优化(Mirage Search Optimization, MSO)算法求解23个经典函数测试集,MATLAB
开发语言·人工智能·算法·机器学习·matlab·机器人
IT猿手2 小时前
2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB
人工智能·python·算法·数学建模·matlab·智能优化算法
Jet45053 小时前
玩转ChatGPT:GPT 深入研究功能
人工智能·gpt·chatgpt·deep research·深入研究
毕加锁3 小时前
chatgpt完成python提取PDF简历指定内容的案例
人工智能·chatgpt
Wis4e5 小时前
基于PyTorch的深度学习3——基于autograd的反向传播
人工智能·pytorch·深度学习
西猫雷婶6 小时前
神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练
人工智能·深度学习·神经网络
梦丶晓羽7 小时前
自然语言处理:文本分类
人工智能·python·自然语言处理·文本分类·朴素贝叶斯·逻辑斯谛回归