技术栈
kv cache 内存不足
墨理学AI
5 小时前
kv cache 内存不足
·
上下文长度设置
KV cache 内存不足-降低模型上下文长度: ValueError: models‘s max seq len (262144)
你的报错核心是 KV cache 内存不足:vLLM 默认 gpu_memory_utilization=0.9,但模型权重 + 多模态部分(视觉编码器)占用了大部分显存,留给 KV cache 的空间很少,导致只能支持最大 ~57104 tokens。
我是有底线的