技术栈
kv cache
被制作时长两年半的个人练习生
9 天前
kv cache
KV Cache
这里贴一张经典的图(ref:https://infrasys-ai.github.io/aiinfra-docs/05Infer02InferSpeedUp/01KVCache.html) 但我个人觉得这个图不能体现KV Cache减少计算的情况,因为看起来Attention的结果在前后也有优化,但实际上左边的Q也可以改成单个的,关键的是不需要重复计算K和V了。 数学推理参考https://datahonor.com/blog/2025/06/03/llm_kv_cache/
enjoy编程
21 天前
注意力机制
·
flashattention
·
kv cache
·
pd分离
·
pagedattention
·
epd分离
·
radixattention
Spring AI 大模型工程核心:效率的极限博弈
大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
每天都要写算法(努力版)
1 个月前
llm
·
vllm
·
kv cache
【混合注意力模型的 KV Cache 设计与统一管理实践解析】
近年来,大模型结构快速演进,从传统自注意力(Standard Attention)走向更高效的混合注意力(Hybrid Attention)。例如:
爱分享的飘哥
6 个月前
llama
·
llama.cpp
·
kv cache
·
attention优化
·
llm cpu推理
·
量化attention
·
gguf推理
第四十六章:AI的“瞬时记忆”与“高效聚焦”:llama.cpp的KV Cache与Attention机制
我们已经亲身体验了LLaMA.cpp在CPU上运行大语言模型的神奇速度。一个7B参数的模型,在你的普通电脑上,也能做到几乎“秒回”,这在几年前是难以想象的。
SpikeKing
1 年前
gpt
·
attention
·
公式
·
矩阵乘法
·
kv cache
·
decoderonly
·
键值缓存
LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141605718
我是有底线的