技术栈

pageattention

Flying pigs~~
11 小时前
模型训练·deepspeed·vllm·模型推理·zero·pageattention
大模型训练框架 ➕ 推理部署框架训练用 DeepSpeed,推理选 vLLM 或 Ollama,入门看 Transformers,生产上 TGI。大模型从训到跑,一套框架全搞定。 🚀
陈 洪 伟
3 个月前
vllm·pageattention
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析借鉴操作系统中虚拟内存的分页技术,将KV缓存划分为多个block块,每个块保存固定数量token的KV数据,并通过block table将逻辑block和物理block进行映射。连续的逻辑页可以对应到非连续的物理内存页,并且物理的内存空间并不需要提前去预留,而是按需分配,
我是有底线的