技术栈

qwen3coder

SNOWPIAOP
3 小时前
llama.cpp·5090·qwen3coder
RTX 5090 本地部署 Qwen3-Coder-30B-A3B 实测:90 Tokens/s,128K 上下文,仅占用 22.4GB 显存最近体验了一下 Qwen3-Coder-30B-A3B-Instruct 的 GGUF 版本,在 RTX 5090 D V2(24GB) 上使用 llama.cpp 进行部署,整体效果超出预期。
我是有底线的