第八十篇-E5-2680V4+V100-32G+llama-cpp运行+Qwen3-Next-80B-UD-Q2_K_XL.GGUF

参考:第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80B-CSDN博客

版本

bash 复制代码
./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
  Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 7937 (423bee4)

运行

bash 复制代码
./bin/llama-server -m /models/GGUF_LIST/Qwen3-Coder-Next-UD-Q2_K_XL.gguf --host 0.0.0.0 --port 28000 --gpu-layers 999 --ctx-size 128000 --threads 28

资源消耗

GPU 32076MiB

bash 复制代码
Tue Feb 10 22:52:37 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla PG503-216                On  | 00000000:04:00.0 Off |                    0 |
| N/A   28C    P0             137W / 250W |  32076MiB / 32768MiB |     96%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

CPU 1核在跑

内存 1G

速度 59.99 tokens/s

相关推荐
究极无敌暴龙战神X1 天前
RAG基本流程
自然语言处理·llama·rag
code_pgf2 天前
Llama 3详解
人工智能·llama
m0_488913012 天前
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3,看这一篇就够了!
人工智能·学习·机器学习·大模型·产品经理·llama·uml
helpme流水2 天前
LLaMA Factory 从入门到精通,一篇讲完
人工智能·ai·语言模型·llama
许彰午3 天前
零成本搭建RAG智能客服:Ollama + Milvus + DeepSeek全程实战
人工智能·语音识别·llama·milvus
d1z8884 天前
(二十一)32天GPU测试从入门到精通-LLaMA 系列模型测试day19
llama·显卡·llm推理·推理引擎
AI精钢4 天前
OpenClaw 本地内存检索与 node-llama-cpp 的依赖关系深度解析
llama·向量数据库·内存检索·openclaw·node-llama-cpp·本地 ai
❀͜͡傀儡师4 天前
ShadowBroker:实时全球情报地图,开源情报(OSINT)的终极聚合平台
docker·容器·llama
❀͜͡傀儡师4 天前
基于Docker的LLaMA-Factory全流程部署指南
docker·容器·llama
d1z8884 天前
(二十)32天GPU测试从入门到精通-llama.cpp CPU/GPU 混合推理day18
人工智能·llama·显卡·llama.cpp