技术栈
pageattention
Flying pigs~~
11 小时前
模型训练
·
deepspeed
·
vllm
·
模型推理
·
zero
·
pageattention
大模型训练框架 ➕ 推理部署框架
训练用 DeepSpeed,推理选 vLLM 或 Ollama,入门看 Transformers,生产上 TGI。大模型从训到跑,一套框架全搞定。 🚀
陈 洪 伟
3 个月前
vllm
·
pageattention
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析
借鉴操作系统中虚拟内存的分页技术,将KV缓存划分为多个block块,每个块保存固定数量token的KV数据,并通过block table将逻辑block和物理block进行映射。连续的逻辑页可以对应到非连续的物理内存页,并且物理的内存空间并不需要提前去预留,而是按需分配,
我是有底线的