deepseekmoe - deepseekmoe技术,学习,经验文章

爱补鱼的猫猫

7 个月前

20、 DeepSeekMoE论文笔记DeepSeekMoE • 标题：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models • 时间：2024年1月 • 链接：arXiv:2401.06066 • 突破：通过细粒度专家分割与共享专家隔离策略，实现MoE架构的灵活性与性能平衡，计算成本不变下模型性能提升30%。