技术栈

mla

木亦汐丫
2 个月前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
爱听歌的周童鞋
2 个月前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄