pageattention - pageattention技术,学习,经验文章

陈洪伟

1 个月前

大模型推理引擎 vLLM(2)：PagedAttention论文学习以及原理解析借鉴操作系统中虚拟内存的分页技术，将KV缓存划分为多个block块，每个块保存固定数量token的KV数据，并通过block table将逻辑block和物理block进行映射。连续的逻辑页可以对应到非连续的物理内存页，并且物理的内存空间并不需要提前去预留，而是按需分配，