kv cache

handsomestWei4 天前
vllm·推理框架·kv cache·sglang
KV Cache与vLLM、SGLang推理框架全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
lin_dec+5 天前
nlp·transformer·vllm·大模型推理·kv cache
KV Cache:大模型推理加速的关键技术目录1、为什么需要 KV Cache?先搞懂大模型的文本生成模式2、不使用 KV Cache 时,到底有多少冗余计算?
一顿能吃五大海碗啊啊啊15 天前
mha·gqa·mqa·kv cache
大模型推理加速 KV cache目录一、Attention 计算Attention 计算详解备注:1. Mask 的核心作用2. 两种主要的 Mask 类型
dawdo2222 个月前
缓存·llm·transformer·qwen·kv cache
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化在大语言模型的推理过程中,生成每个token都需要计算之前所有token的注意力权重。如果不使用缓存,每次生成都需要重新计算所有历史token的Key和Value,这会导致巨大的计算开销。KV缓存(Key-Value Cache)技术通过缓存历史token的K和V,在后续生成中只计算新token的K和V,从而大幅提升推理性能。
被制作时长两年半的个人练习生3 个月前
kv cache
KV Cache这里贴一张经典的图(ref:https://infrasys-ai.github.io/aiinfra-docs/05Infer02InferSpeedUp/01KVCache.html) 但我个人觉得这个图不能体现KV Cache减少计算的情况,因为看起来Attention的结果在前后也有优化,但实际上左边的Q也可以改成单个的,关键的是不需要重复计算K和V了。 数学推理参考https://datahonor.com/blog/2025/06/03/llm_kv_cache/
enjoy编程3 个月前
注意力机制·flashattention·kv cache·pd分离·pagedattention·epd分离·radixattention
Spring AI 大模型工程核心:效率的极限博弈大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
每天都要写算法(努力版)3 个月前
llm·vllm·kv cache
【混合注意力模型的 KV Cache 设计与统一管理实践解析】近年来,大模型结构快速演进,从传统自注意力(Standard Attention)走向更高效的混合注意力(Hybrid Attention)。例如:
爱分享的飘哥8 个月前
llama·llama.cpp·kv cache·attention优化·llm cpu推理·量化attention·gguf推理
第四十六章:AI的“瞬时记忆”与“高效聚焦”:llama.cpp的KV Cache与Attention机制我们已经亲身体验了LLaMA.cpp在CPU上运行大语言模型的神奇速度。一个7B参数的模型,在你的普通电脑上,也能做到几乎“秒回”,这在几年前是难以想象的。
SpikeKing2 年前
gpt·attention·公式·矩阵乘法·kv cache·decoderonly·键值缓存
LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141605718
我是有底线的