kv cache 内存不足 - kv cache 内存不足技术,学习,经验文章

墨理学AI

2 个月前

KV cache 内存不足-降低模型上下文长度: ValueError: models‘s max seq len (262144)你的报错核心是 KV cache 内存不足：vLLM 默认 gpu_memory_utilization=0.9，但模型权重 + 多模态部分（视觉编码器）占用了大部分显存，留给 KV cache 的空间很少，导致只能支持最大 ~57104 tokens。