LLAMA-CLI 运行千问3.6(R9-7945HX+64G+RTX40608G)

Max Support:

  • Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf 37 Token/S
  • Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf 31 Token/S
  • Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf 16 Token/S
  • Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf 13 Token/S

Slow: 16Token/S

powershell 复制代码
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --ctx-size 262144 -n 81920 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

Slow-2: 17Token/S

bash 复制代码
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
     --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
    --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
    --chat-template-kwargs '{\"enable_thinking\": true}' -c 262144

Fast: 37Token/S

powershell 复制代码
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

API:

powershell 复制代码
llama-server -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
  --host 0.0.0.0 --port 8080 `
  --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
  --seed 42 --jinja -ngl 100 --n-cpu-moe 32 -t 16 `
  --ctx-size 262144 -n 81920 `
  --chat-template-kwargs '{\"enable_thinking\": true}' 
相关推荐
IT_陈寒2 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
Jackson__3 小时前
分享一个横向滚动案例,带悬停暂停,通用性很强
前端
MariaH3 小时前
git rebase的使用
前端
_柳青杨3 小时前
深入理解 JavaScript 事件循环
前端·javascript
阡陌Jony3 小时前
关于前端性能优化的一些问题:
前端
用户600071819104 小时前
【翻译】简化 TSRX
前端
IT乐手5 小时前
佛德角逼平西班牙,国足还有啥借口?
前端
JustHappy5 小时前
我汇总了身边朋友的经历才发现,其实第一份实习是最难找的......
前端·后端·面试
星栈6 小时前
Dioxus 的响应式系统:`Signal`、`Memo`、`Effect` 和异步状态到底该怎么分工
前端·前端框架
yingyima6 小时前
Java 正则表达式:比你想象的更强大
前端