使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s

下载llama.cpp

repo：github.com

到这个页面，下载适合的程序，比如windows10下，使用了这个：

下载模型

寻找模型

到modelscopy下载模型，首先我们要确定模型，是这款Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

但是直接查这个名字未必能查到，所以先要查Qwen3.6-35B-A3B，在modelscopy官网查：搜索 · 魔搭社区

查到这里：

进入unsloth子页面，发现gguf有好多模型，我们今天用这一款：Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

安装modelscopy

复制代码

pip install modelscope

下载模型

复制代码

modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --local_dir ./

下载完毕

G:\ai\models>dir

Volume in drive G is AI

Volume Serial Number is 0619-E3AB

Directory of G:\ai\models

05/25/2026 09:36 AM <DIR> .

05/25/2026 09:36 AM <DIR> ..

05/25/2026 09:36 AM 113 .msc

05/25/2026 09:04 AM <DIR> ._____temp

05/25/2026 09:36 AM 22,134,528,992 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

2 File(s) 22,134,529,105 bytes

3 Dir(s) 123,231,006,720 bytes free

启动llama服务

启动命令

普通的启动命令

复制代码

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

当前速度5 token/s

复制代码

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1

内存少了5G，速度略有增加

复制代码

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 --cache-ram 0

最后用的4并发

复制代码

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

在2个任务同时进行的情况下，可以达到7.3 token/s

参数含义

复制代码

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0 --tools all

以下是针对 llama-server.exe 命令中各参数的详细解读，结合 ‌Qwen3.6-35B-A3B‌ 模型和推理优化需求进行说明：

‌1. 基础模型加载‌

‌**-m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf** ‌
- ‌作用‌：指定模型文件路径。
- ‌细节 ‌：
  - 文件格式为 .gguf（GGML 量化格式），支持高效推理。
  - Qwen3.6-35B-A3B 是阿里云的 ‌350亿参数混合专家（MoE）模型 ‌，A3B 可能表示架构优化版本。
  - UD-Q4_K_M 表明模型经过 ‌4-bit 量化 ‌（Q4），键（Key）和值（Value）使用 q4_0 量化类型，显著减少内存占用。

‌2. 模型架构与并行配置‌

‌**-ngl 99**‌
- ‌作用 ‌：设置 ‌**GPU 层数（Number of GPU Layers）**‌。
- ‌细节 ‌：
  - 99 表示将模型的前 99 层加载到 GPU（若模型总层数 ≥99）。
  - 剩余层（如注意力层、输出层）可能在 CPU 上运行（需结合 --n-cpu-moe 配置）。
  - ‌适用场景‌：多 GPU 或 GPU 内存不足时，通过分层卸载平衡负载。
‌**--n-cpu-moe 32**‌
- ‌作用 ‌：分配 ‌32 个 CPU 线程处理 MoE（混合专家）路由‌。
- ‌细节 ‌：
  - MoE 模型需动态选择专家（Expert）处理输入，此参数控制路由计算的并行度。
  - 数值需 ≤ 物理 CPU 核心数（如 64 核 CPU 可设为 32-64）。
  - ‌性能影响‌：线程数过高可能导致上下文切换开销，需实测调优。

‌3. 推理加速优化‌

‌**--flash-attn on**‌
- ‌作用 ‌：启用 ‌Flash Attention‌ 优化。
- ‌细节 ‌：
  - 通过算法优化减少注意力计算的内存访问次数，显著提升速度（尤其长序列）。
  - ‌硬件要求‌：需支持 Tensor Cores 的 GPU（如 NVIDIA A100/H100）。
  - ‌兼容性‌：若 GPU 不支持，可能自动回退到标准注意力机制。
‌**-c 65536**‌
- ‌作用 ‌：设置 ‌**上下文窗口大小（Context Length）**‌ 为 65,536 tokens。
- ‌细节 ‌：
  - 决定模型能处理的最大输入/输出序列长度（如长文档摘要、多轮对话）。
  - ‌内存影响 ‌：窗口越大，KV 缓存占用越高（需配合 --cache-type-k 和 --cache-ram 调整）。
  - ‌限制‌：实际可用窗口可能受模型架构和硬件限制（如 35B 模型可能支持 ≤32K tokens）。

‌4. 缓存与量化配置‌

‌**--cache-type-k q4_0**‌
- ‌作用 ‌：指定键（Key）的缓存量化类型为 ‌4-bit 量化的 q4_0 格式‌。
- ‌细节 ‌：
  - q4_0 是 GGML 量化的一种，牺牲少量精度换取内存节省（通常压缩率 75%）。
  - 仅量化 Key（不量化 Value），平衡速度与质量（部分实现可能同时量化 Value）。
  - ‌适用场景‌：内存受限但需处理长序列时。
‌**--cache-ram 0**‌
- ‌作用 ‌：不限制 ‌系统内存（RAM）用于缓存的大小‌。
- ‌细节 ‌：
  - 缓存主要用于存储 KV 缓存和中间结果，0 表示自动分配（可能占用全部可用内存）。
  - ‌风险‌：若系统内存不足，可能导致 OOM（需监控内存使用）。
  - ‌替代方案 ‌：可设为固定值（如 --cache-ram 16000000000 限制为 16GB）。

‌5. 多进程与工具集成‌

‌**-np 4**‌
- ‌作用 ‌：启动 ‌4 个推理进程‌（Number of Processes）。
- ‌细节 ‌：
  - 多进程可并行处理多个请求，提升吞吐量（尤其高并发场景）。
  - 每个进程独立加载模型，需确保总内存足够（35B 模型 ×4 进程可能需 >100GB 内存）。
  - ‌适用场景‌：服务化部署（如 API 服务）。
‌**--tools**‌
- ‌作用 ‌：启用 ‌工具调用能力‌（如函数调用、外部 API 交互）。
- ‌细节 ‌：
  - 允许模型通过工具扩展功能（如查询数据库、调用计算器）。
  - 需配合工具定义文件（如 tools.json）使用，具体实现依赖框架版本。
  - ‌典型场景‌：智能体（Agent）应用（如 AutoGPT、BabyAGI）。

‌参数组合建议‌

‌内存优化配置‌（低显存 GPU）：
复制代码
bash

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 64 --n-cpu-moe 16 --flash-attn on -c 32768 --cache-type-k q4_0 -np 2 --cache-ram 8000000000
- 减少 GPU 层数（-ngl 64）、缩小上下文窗口（-c 32768）、限制缓存内存（8GB）。
‌高性能配置‌（多 GPU + 高显存）：
复制代码
bash

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 120 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0
- 最大化 GPU 利用率（-ngl 120）、启用 Flash Attention、不限制缓存内存。

‌注意事项‌

‌硬件匹配‌：确保 GPU 支持 Flash Attention（如 NVIDIA Ampere 架构及以上）。
‌监控资源 ‌：使用 nvidia-smi（GPU）和 htop（CPU）监控负载，避免瓶颈。
‌框架版本 ‌：部分参数（如 --tools）可能需特定版本的 llama-server 支持。

通过调整这些参数，可在 ‌推理速度、内存占用、模型质量‌ 之间找到最佳平衡点。

测试一下，问它个问题：你擅长什么？

Reasoning

Toggle content

我擅长多个方向的能力，主要集中在以下几个方面：

复杂推理与逻辑分析：能拆解数学、科学、商业及日常场景中的复杂问题，提供严谨、可验证的分析路径。
全栈代码与开发支持：支持多语言代码生成、理解、调试与重构，可协助完成从脚本到完整项目架构的开发任务。
超长上下文处理：支持 256K 上下文窗口，能一次性阅读并精准定位长篇文档、报表或日志中的关键信息。
多语言与跨文化交互：原生支持全球 100 多种语言，满足国际化沟通、翻译与本地化需求。
智能体与自动化工作流：可自主规划多步任务，结合搜索、代码执行与工具调用，独立完成复杂流程。
专业领域知识增强：在医疗、法律、金融、教育等垂直领域具备深度知识对齐，可提供合规、实用且结构清晰的建议。

如果你有具体的任务、想测试某项能力，或需要我协助完成某类工作，直接告诉我即可，我会按需为你高效处理。

Qwen3.635B-A3BUDQ4_K_M.gguf

ReadingGeneration

938 tokens2min 50s5.50 t/s

可以看到答案还是可以的。

耗时

总共耗时约3分钟，可以一用。主要是cpu和显卡都较差，

CPU

Intel(R) Xeon(R) CPU E5-2643 v2 @ 3.50GHz

Base speed: 3.50 GHz

Sockets: 2

Cores: 12

Logical processors: 24

Virtualization: Enabled

L1 cache: 768 KB

L2 cache: 3.0 MB

L3 cache: 50.0 MB

Utilization 32%

Speed 3.58 GHz

Up time 2:21:49:31

Processes 451

Threads 8502

Handles 251410

GPU 0

NVIDIA Quadro K4200

Driver version: 30.0.14.7514

Driver date: 6/10/2024

DirectX version: 12 (FL 11.0)

Physical location: PCI bus 5, device 0, function 0

Utilization 6%

Dedicated GPU memory 0.8/4.0 GB

Shared GPU memory 0.2/32.0 GB

GPU Memory 1.0/36.0 GB

总体llama.cpp配这款模型，32G的主机配老显卡，都可以一战！