技术栈
mla
木亦汐丫
1 个月前
sft
·
rl
·
mtp
·
mla
·
deepseekmoe
·
fp8 混合精度训练
·
dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
爱听歌的周童鞋
1 个月前
attention
·
gqa
·
deepseek
·
mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析
学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄