技术栈

qwen3.5-35b-a3b

晨欣
5 小时前
llama.cpp·qwen3.6-35b-a3b·qwen3.5-35b-a3b
单卡 L20 48GB实测 | 同是 Q8_0,为什么 Qwen3.6 在 llama.cpp 长上下文下比 Qwen3.5 更慢?关键词: Qwen3.5、Qwen3.6、llama.cpp、GGUF、Q8_0、TTFT、Prefill、长上下文、L20 48GB、推理性能、单卡部署
我是有底线的