mla

空巢青年_rui

【翻译】现代LLM中注意力变体的可视化指南：从MHA和GQA到MLA、稀疏注意力机制和混合架构原文地址：A Visual Guide to Attention Variants in Modern LLMs

大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力abstract MLA就是压缩KV减少显存占用增加向量维度表示位置信息，以支持矩阵乘法融合，视频地址：DeepSeek-v2 MLA 原理讲解多头潜在注意力怎么解决旋转位置编码的问题解决方式就是给Q K向量额外增加一些维度来表示位置信息，

【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构

爱听歌的周童鞋

DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块，究极缝合怪，东抄抄西抄抄，主要 copy 自苏神的文章，仅供自己参考😄

我是有底线的