技术栈

kvcache

深念Y
3 小时前
缓存·ai·llm·api·硬件·显存·kvcache
大模型API缓存的底层原理:从显存到网关最近和一位朋友聊到API的缓存,他提出了一个很敏锐的问题:“其实tokens缓存都是假的吧?LLM本身就是无状态的。这种缓存只是一种计费规则。实际上跟上下文显存空间有关,你来用,他那边就会给你开一个显存池,就是为了反复压缩切换。不可能你现在来一次,等下不来了,他还把你这份留着来压缩显存,开销太大了。”
强哥之神
6 个月前
人工智能·深度学习·机器学习·语言模型·llm·kvcache
从零理解 KV Cache:大语言模型推理加速的核心机制在当前大语言模型(Large Language Models, LLMs)的工程实践中,如何提升推理效率已成为一个核心课题。尽管训练阶段决定了模型的能力上限,但真正影响用户体验和部署成本的,往往是推理阶段的响应速度与资源消耗。在众多优化手段中,KV Cache(键值缓存) 被广泛认为是实现高效文本生成的关键技术之一。
SpikeKing
1 年前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666
我是有底线的