技术栈

kv 缓存

HyperAI超神经
24 天前
llm·大语言模型·内存管理·vllm·推理加速·kv 缓存·中文文档
【vLLM 学习】Load Sharded StatevLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
Baihai IDP
1 年前
人工智能·深度学习·llm·白海科技·大模型推理·kv 缓存
LLM 推理优化探微 (3) :如何有效控制 KV 缓存的内存占用,优化推理速度?编者按: 随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并在实践中做出正确的模型服务部署决策。
我是有底线的