技术栈

mla

陈 洪 伟
4 天前
vllm·mla
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力abstract MLA就是压缩KV减少显存占用 增加向量维度表示位置信息,以支持矩阵乘法融合,视频地址:DeepSeek-v2 MLA 原理讲解 多头潜在注意力怎么解决旋转位置编码的问题 解决方式就是给Q K向量额外增加一些维度来表示位置信息,
木亦汐丫
1 年前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
爱听歌的周童鞋
1 年前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
我是有底线的