kvcache

陈 洪 伟7 天前
vllm·kvcache
大模型推理引擎vLLM(25): 从--kv-cache-dtype fp8_e5m2时gsm8k答非所问的bug梳理kv cache相应代码片段目录1 E4M3 E5M2的问题2 BF16 FP162.1 fp16(IEEE half,半精度)2.2 bf16(bfloat16,Brain Float)
深念Y17 天前
缓存·ai·api·提示词·kvcache·vibecoding·claudecode
理解大模型API缓存机制:从Claude Code的缓存失效到DeepSeek的硬盘缓存最近使用Claude Code的同学可能会发现,升级到较新版本(2.1.37+)后,缓存的命中率明显下降,推理速度变慢,Token消耗也增加了。如果你查看源码或相关讨论,会注意到一个环境变量:CLAUDE_CODE_ATTRIBUTION_HEADER="0"。把它设置之后,缓存就恢复正常了。
深念Y1 个月前
缓存·ai·llm·api·硬件·显存·kvcache
大模型API缓存的底层原理:从显存到网关最近和一位朋友聊到API的缓存,他提出了一个很敏锐的问题:“其实tokens缓存都是假的吧?LLM本身就是无状态的。这种缓存只是一种计费规则。实际上跟上下文显存空间有关,你来用,他那边就会给你开一个显存池,就是为了反复压缩切换。不可能你现在来一次,等下不来了,他还把你这份留着来压缩显存,开销太大了。”
强哥之神8 个月前
人工智能·深度学习·机器学习·语言模型·llm·kvcache
从零理解 KV Cache:大语言模型推理加速的核心机制在当前大语言模型(Large Language Models, LLMs)的工程实践中,如何提升推理效率已成为一个核心课题。尽管训练阶段决定了模型的能力上限,但真正影响用户体验和部署成本的,往往是推理阶段的响应速度与资源消耗。在众多优化手段中,KV Cache(键值缓存) 被广泛认为是实现高效文本生成的关键技术之一。
SpikeKing1 年前
leetcode·llm·attention·multihead·groupquery·kvcache
LeetCode - Google 大模型校招10题 第1天 Attention 汇总 (3题)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145368666
我是有底线的