Max Support:
- Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf [37 Token/S]
- Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf [31 Token/S]
- Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf [16 Token/S]
- Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf [13 Token/S]
Slow: 16Token/S
powershell
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--ctx-size 262144 -n 81920 `
--chat-template-kwargs '{\"enable_thinking\": true}'
Slow-2: 17Token/S
bash
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--chat-template-kwargs '{\"enable_thinking\": true}' -c 262144
Fast: 37Token/S
powershell
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--chat-template-kwargs '{\"enable_thinking\": true}'
API:
powershell
llama-server -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--host 0.0.0.0 --port 8080 `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -ngl 100 --n-cpu-moe 32 -t 16 `
--ctx-size 262144 -n 81920 `
--chat-template-kwargs '{\"enable_thinking\": true}'