技术栈

pagedattention

enjoy编程
8 天前
注意力机制·flashattention·kv cache·pd分离·pagedattention·epd分离·radixattention
Spring AI 大模型工程核心:效率的极限博弈大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
九章云极AladdinEdu
3 个月前
vllm·kv缓存·推理优化·pagedattention·连续批处理·吞吐量对比
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现大型语言模型(LLM)推理面临两大核心矛盾:计算密度高(单次推理需数十亿次浮点运算)与内存消耗大。以LLaMA-13B为例,仅KV缓存(Key-Value Cache)存储单个序列就可能占用1.7GB内存,而传统推理系统(如HuggingFace Transformers、FasterTransformer)由于固定内存预分配策略,导致60%-80%的内存因碎片化和过度保留而被浪费。
我是有底线的