技术栈

pageattention

陈 洪 伟
5 小时前
vllm·pageattention
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析借鉴操作系统中虚拟内存的分页技术,将KV缓存划分为多个block块,每个块保存固定数量token的KV数据,并通过block table将逻辑block和物理block进行映射。连续的逻辑页可以对应到非连续的物理内存页,并且物理的内存空间并不需要提前去预留,而是按需分配,
我是有底线的