使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s

下载llama.cpp

repo:github.com

到这个页面,下载适合的程序,比如windows10下,使用了这个:

下载模型

寻找模型

到modelscopy下载模型,首先我们要确定模型,是这款Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

但是直接查这个名字未必能查到,所以先要查Qwen3.6-35B-A3B,在modelscopy官网查:搜索 · 魔搭社区

查到这里:

进入unsloth子页面,发现gguf有好多模型,我们今天用这一款:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

安装modelscopy

复制代码
pip install modelscope

下载模型

复制代码
modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --local_dir ./

下载完毕

G:\ai\models>dir

Volume in drive G is AI

Volume Serial Number is 0619-E3AB

Directory of G:\ai\models

05/25/2026 09:36 AM <DIR> .

05/25/2026 09:36 AM <DIR> ..

05/25/2026 09:36 AM 113 .msc

05/25/2026 09:04 AM <DIR> ._____temp

05/25/2026 09:36 AM 22,134,528,992 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

2 File(s) 22,134,529,105 bytes

3 Dir(s) 123,231,006,720 bytes free

启动llama服务

启动命令

普通的启动命令

复制代码
llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

当前速度5 token/s

复制代码
llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 

内存少了5G,速度略有增加

复制代码
llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 --cache-ram 0

最后用的4并发

复制代码
llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

在2个任务同时进行的情况下,可以达到7.3 token/s

参数含义

复制代码
llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0 --tools all

以下是针对 llama-server.exe 命令中各参数的详细解读,结合 ‌Qwen3.6-35B-A3B‌ 模型和推理优化需求进行说明:


1. 基础模型加载

  • ‌**-m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf** ‌
    • 作用‌:指定模型文件路径。
    • 细节 ‌:
      • 文件格式为 .gguf(GGML 量化格式),支持高效推理。
      • Qwen3.6-35B-A3B 是阿里云的 ‌350亿参数混合专家(MoE)模型 ‌,A3B 可能表示架构优化版本。
      • UD-Q4_K_M 表明模型经过 ‌4-bit 量化 ‌(Q4),键(Key)和值(Value)使用 q4_0 量化类型,显著减少内存占用。

2. 模型架构与并行配置

  • ‌**-ngl 99**‌

    • 作用 ‌:设置 ‌**GPU 层数(Number of GPU Layers)**‌。
    • 细节 ‌:
      • 99 表示将模型的前 99 层加载到 GPU(若模型总层数 ≥99)。
      • 剩余层(如注意力层、输出层)可能在 CPU 上运行(需结合 --n-cpu-moe 配置)。
      • 适用场景‌:多 GPU 或 GPU 内存不足时,通过分层卸载平衡负载。
  • ‌**--n-cpu-moe 32**‌

    • 作用 ‌:分配 ‌32 个 CPU 线程处理 MoE(混合专家)路由‌。
    • 细节 ‌:
      • MoE 模型需动态选择专家(Expert)处理输入,此参数控制路由计算的并行度。
      • 数值需 ≤ 物理 CPU 核心数(如 64 核 CPU 可设为 32-64)。
      • 性能影响‌:线程数过高可能导致上下文切换开销,需实测调优。

3. 推理加速优化

  • ‌**--flash-attn on**‌

    • 作用 ‌:启用 ‌Flash Attention‌ 优化。
    • 细节 ‌:
      • 通过算法优化减少注意力计算的内存访问次数,显著提升速度(尤其长序列)。
      • 硬件要求‌:需支持 Tensor Cores 的 GPU(如 NVIDIA A100/H100)。
      • 兼容性‌:若 GPU 不支持,可能自动回退到标准注意力机制。
  • ‌**-c 65536**‌

    • 作用 ‌:设置 ‌**上下文窗口大小(Context Length)**‌ 为 65,536 tokens。
    • 细节 ‌:
      • 决定模型能处理的最大输入/输出序列长度(如长文档摘要、多轮对话)。
      • 内存影响 ‌:窗口越大,KV 缓存占用越高(需配合 --cache-type-k--cache-ram 调整)。
      • 限制‌:实际可用窗口可能受模型架构和硬件限制(如 35B 模型可能支持 ≤32K tokens)。

4. 缓存与量化配置

  • ‌**--cache-type-k q4_0**‌

    • 作用 ‌:指定键(Key)的缓存量化类型为 ‌4-bit 量化的 q4_0 格式‌。
    • 细节 ‌:
      • q4_0 是 GGML 量化的一种,牺牲少量精度换取内存节省(通常压缩率 75%)。
      • 仅量化 Key(不量化 Value),平衡速度与质量(部分实现可能同时量化 Value)。
      • 适用场景‌:内存受限但需处理长序列时。
  • ‌**--cache-ram 0**‌

    • 作用 ‌:不限制 ‌系统内存(RAM)用于缓存的大小‌。
    • 细节 ‌:
      • 缓存主要用于存储 KV 缓存和中间结果,0 表示自动分配(可能占用全部可用内存)。
      • 风险‌:若系统内存不足,可能导致 OOM(需监控内存使用)。
      • 替代方案 ‌:可设为固定值(如 --cache-ram 16000000000 限制为 16GB)。

5. 多进程与工具集成

  • ‌**-np 4**‌

    • 作用 ‌:启动 ‌4 个推理进程‌(Number of Processes)。
    • 细节 ‌:
      • 多进程可并行处理多个请求,提升吞吐量(尤其高并发场景)。
      • 每个进程独立加载模型,需确保总内存足够(35B 模型 ×4 进程可能需 >100GB 内存)。
      • 适用场景‌:服务化部署(如 API 服务)。
  • ‌**--tools**‌

    • 作用 ‌:启用 ‌工具调用能力‌(如函数调用、外部 API 交互)。
    • 细节 ‌:
      • 允许模型通过工具扩展功能(如查询数据库、调用计算器)。
      • 需配合工具定义文件(如 tools.json)使用,具体实现依赖框架版本。
      • 典型场景‌:智能体(Agent)应用(如 AutoGPT、BabyAGI)。

参数组合建议

  1. 内存优化配置‌(低显存 GPU):

    复制代码

    bash

    llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 64 --n-cpu-moe 16 --flash-attn on -c 32768 --cache-type-k q4_0 -np 2 --cache-ram 8000000000

    • 减少 GPU 层数(-ngl 64)、缩小上下文窗口(-c 32768)、限制缓存内存(8GB)。
  2. 高性能配置‌(多 GPU + 高显存):

    复制代码

    bash

    llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 120 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

    • 最大化 GPU 利用率(-ngl 120)、启用 Flash Attention、不限制缓存内存。

注意事项

  • 硬件匹配‌:确保 GPU 支持 Flash Attention(如 NVIDIA Ampere 架构及以上)。
  • 监控资源 ‌:使用 nvidia-smi(GPU)和 htop(CPU)监控负载,避免瓶颈。
  • 框架版本 ‌:部分参数(如 --tools)可能需特定版本的 llama-server 支持。

通过调整这些参数,可在 ‌推理速度、内存占用、模型质量‌ 之间找到最佳平衡点。

测试一下,问它个问题:你擅长什么?

Reasoning

Toggle content

我擅长多个方向的能力,主要集中在以下几个方面:

  • 复杂推理与逻辑分析:能拆解数学、科学、商业及日常场景中的复杂问题,提供严谨、可验证的分析路径。
  • 全栈代码与开发支持:支持多语言代码生成、理解、调试与重构,可协助完成从脚本到完整项目架构的开发任务。
  • 超长上下文处理:支持 256K 上下文窗口,能一次性阅读并精准定位长篇文档、报表或日志中的关键信息。
  • 多语言与跨文化交互:原生支持全球 100 多种语言,满足国际化沟通、翻译与本地化需求。
  • 智能体与自动化工作流:可自主规划多步任务,结合搜索、代码执行与工具调用,独立完成复杂流程。
  • 专业领域知识增强:在医疗、法律、金融、教育等垂直领域具备深度知识对齐,可提供合规、实用且结构清晰的建议。

如果你有具体的任务、想测试某项能力,或需要我协助完成某类工作,直接告诉我即可,我会按需为你高效处理。

Qwen3.635B-A3BUDQ4_K_M.gguf

ReadingGeneration

938 tokens2min 50s5.50 t/s

可以看到答案还是可以的。

耗时

总共耗时约3分钟,可以一用。主要是cpu和显卡都较差,

CPU

Intel(R) Xeon(R) CPU E5-2643 v2 @ 3.50GHz

Base speed: 3.50 GHz

Sockets: 2

Cores: 12

Logical processors: 24

Virtualization: Enabled

L1 cache: 768 KB

L2 cache: 3.0 MB

L3 cache: 50.0 MB

Utilization 32%

Speed 3.58 GHz

Up time 2:21:49:31

Processes 451

Threads 8502

Handles 251410

GPU 0

NVIDIA Quadro K4200

Driver version: 30.0.14.7514

Driver date: 6/10/2024

DirectX version: 12 (FL 11.0)

Physical location: PCI bus 5, device 0, function 0

Utilization 6%

Dedicated GPU memory 0.8/4.0 GB

Shared GPU memory 0.2/32.0 GB

GPU Memory 1.0/36.0 GB

总体llama.cpp配这款模型,32G的主机配老显卡,都可以一战!

相关推荐
暴躁小师兄数据学院1 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第1章):Python基础与环境搭建
人工智能·笔记·python·ai
架构源启1 小时前
Spring AI进阶系列(11) Spring AI Multi-Agent 协作系统:辩论、投票与共识机制实战
java·人工智能·spring
无心水1 小时前
金融系统数据一致性之战:联机交易与批量作业的冲突处理完全指南
人工智能·金融·wpf·批量作业·顶尖架构师·联机交易·金融架构师
AI服务老曹1 小时前
源码交付与低代码解耦:基于 Docker 的边缘计算 AI 视频管理平台二次开发深度实战(兼容 GB28181/RTSP)
人工智能·docker·媒体
今天吃饺子1 小时前
50种近五年主流深度学习模型×10种时频方法,故障诊断、分类一键跑通!
人工智能·深度学习·机器学习·分类·数据挖掘
徐安安ye1 小时前
FlashAttention安全合规:国密/GPU安全卡口与等保2.0隐私要求
人工智能·安全·机器学习
code_pgf1 小时前
BERT 与 GPT-3 模型结构及语言理解/生成能力对比
人工智能·gpt-3·bert
ZHW_AI课题组1 小时前
基于随机森林的红酒质量等级预测分类
人工智能·python·随机森林·机器学习
RockHopper20251 小时前
语义操作:从“信息处理”走向“运行组织”——以显式业务语义重构企业软件的运行内核
人工智能·ai-native·语义驱动·语义操作