技术栈

deepseekmoe

爱补鱼的猫猫
21 天前
论文阅读·deepseekmoe
20、 DeepSeekMoE论文笔记DeepSeekMoE • 标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models • 时间:2024年1月 • 链接:arXiv:2401.06066 • 突破:通过细粒度专家分割与共享专家隔离策略,实现MoE架构的灵活性与性能平衡,计算成本不变下模型性能提升30%。
木亦汐丫
2 个月前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构