大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力

文章目录

  • [1 视频1](#1 视频1)
  • [2 疑问和个人理解](#2 疑问和个人理解)
    • [2.1 个人理解:什么是MLA](#2.1 个人理解:什么是MLA)
    • [2.2 疑问:位置信息是怎么优化的](#2.2 疑问:位置信息是怎么优化的)
  • 参考文献

abstract
MLA就是压缩KV减少显存占用
增加向量维度表示位置信息以支持矩阵乘法融合,

1 视频1

视频地址:DeepSeek-v2 MLA 原理讲解





多头潜在注意力怎么解决旋转位置编码的问题

解决方式就是给Q K向量额外增加一些维度来表示位置信息,



2 疑问和个人理解

2.1 个人理解:什么是MLA

我的理解,什么是MLA,MLA其实就是为了减少KV CACHE的空间占用,用一个矩阵乘以K V然后做了压缩,等后面计算注意力的时候再用一个矩阵乘以压缩后的得到正常的KV,所以所谓的MLA其实一句话总结就是压缩KV节省缓存,其实就跟一个大文件,我压缩包然后放到电脑中,等我真正要看这个文件,我再解压然后去看这个文件,这是一个意思,

2.2 疑问:位置信息是怎么优化的

然后他对位置信息还有个优化,就是之前位置信息是通过将Q K乘以一个旋转位置编码矩阵使Q K的向量中包含了位置信息,但是现在如果还是这么做,那么就没法使用矩阵乘法的融合从而减小 运算了,所以DeepSeek采用了另一个方法,就是现在位置信息我不是去乘以Q K 了,而是我通过一个将Q K 乘以一个矩阵然后再用旋转位置编码,然后接着我把得到的这个位置信息加到前面Q K 的维度上,通过增加维度信息来表示位置编码,这样数学推导上就又可以采用矩阵融合的方式了,那么 也就继续可以用矩阵乘法融合从而减小运算律,

其实我觉得他就是位置信息单独计算了,而不是跟之前一样直接乘到Q K上面,

参考文献

DeepSeek-v2 MLA 原理讲解

相关推荐
AIDF20261 天前
我们看一份报告的时候主要看什么
运维·服务器·推理·vllm
张忠琳1 天前
【vllm】(八)vLLM v1 Simple KV Offload — 系统级架构深度分析之二
ai·架构·vllm
一只独角兽2 天前
DeepSeek-V4-Pro 部署实战指南:H100/H200/B200/B300/GB200/GB300 全硬件配置详解
自然语言处理·gru·transformer·vllm
张忠琳2 天前
【vllm】(六)vLLM v1 Sample — 模块超深度分析之一
ai·架构·vllm
蛐蛐蛐3 天前
在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)
vllm
Anesthesia丶4 天前
Qwen2.5-1.5b 模型部署与LORA训练笔记
pytorch·python·lora·llm·qwen·vllm
张忠琳6 天前
【vllm】(五)vLLM v1 Attention — 模块超深度分析之五
ai·架构·vllm
张忠琳6 天前
【vllm】(五)vLLM v1 Attention — 模块超深度分析之二
人工智能·深度学习·ai·架构·vllm
Zzj_tju6 天前
大语言模型部署实战:从 Ollama、vLLM 到 SGLang,本地服务到底怎么搭?
人工智能·语言模型·自然语言处理·vllm
youzj09256 天前
vllm安装到dgx spark上
vllm