eic

火山引擎开发者社区

推理加速新范式：火山引擎高性能分布式 KVCache （EIC）核心技术解读资料来源：火山引擎-开发者社区分布式 KVCache 的兴起背景在大模型领域，随着模型参数规模的扩大和上下文长度增加，算力消耗显著增长。在 LLM 推理过程中，如何减少算力消耗并提升推理吞吐已经成为关键性优化方向。以多轮对话场景为例，随着对话轮数增加，历史 token 重算占比持续增长。实验数据表明（如图1），当每轮输入为 8k tokens 时，运行 6 轮后，历史 token 重复计算占比超过 80%，直接导致了 GPU 算力的冗余消耗。在此背景下，构建高效的历史 token 计算结果缓存机制，

我是有底线的