【infra之路】SGLang推理框架_KV缓存复用与Radix_Attention大语言模型推理时,每一轮生成都会产生 Key-Value 缓存(KV Cache),用于避免重复计算历史 token的注意力。但在多轮对话、少样本学习等场景中,不同请求之间往往存在大量相同的前缀,这些前缀对应的 KV缓存如果各自独立计算,就是纯粹的浪费。SGLang 是一个面向 LLM 的程序化推理框架,它用基数树(RadixTree)统一管理所有请求的 KV 缓存,并配合缓存感知调度策略最大化复用率,从而显著提升推理吞吐。 本文基于 SGLang 的相关技术资料,围绕以下三个问题展开:语言模型程序的定义