技术栈

kv cache 内存不足

墨理学AI
5 小时前
kv cache 内存不足·上下文长度设置
KV cache 内存不足-降低模型上下文长度: ValueError: models‘s max seq len (262144)你的报错核心是 KV cache 内存不足:vLLM 默认 gpu_memory_utilization=0.9,但模型权重 + 多模态部分(视觉编码器)占用了大部分显存,留给 KV cache 的空间很少,导致只能支持最大 ~57104 tokens。
我是有底线的