第八十篇-E5-2680V4+V100-32G+llama-cpp运行+Qwen3-Next-80B-UD-Q2_K_XL.GGUF

参考:第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80B-CSDN博客

版本

bash 复制代码
./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
  Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 7937 (423bee4)

运行

bash 复制代码
./bin/llama-server -m /models/GGUF_LIST/Qwen3-Coder-Next-UD-Q2_K_XL.gguf --host 0.0.0.0 --port 28000 --gpu-layers 999 --ctx-size 128000 --threads 28

资源消耗

GPU 32076MiB

bash 复制代码
Tue Feb 10 22:52:37 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla PG503-216                On  | 00000000:04:00.0 Off |                    0 |
| N/A   28C    P0             137W / 250W |  32076MiB / 32768MiB |     96%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

CPU 1核在跑

内存 1G

速度 59.99 tokens/s

相关推荐
DigitalOcean1 天前
DigitalOcean Gradient AI 推理云平台原生集成 LlamaIndex
llama
ECHO飞跃 0127 天前
Unity2019 本地推理 通义千问0.5-1.5B微调导入
人工智能·深度学习·unity·llama
黑白极客7 天前
ACP大模型认证刷题工具开源,助力高效备考
java·ai·github·llama·认证
迷之程序员7 天前
llama-cpp-python用法,模型加载gpu踩坑全记录
开发语言·python·llama
~kiss~8 天前
Ollama 底层的 llama.cpp 和 GGUF
llama
小雨中_9 天前
4.1 Megatron-LM:千卡级集群预训练的“硬核”框架
人工智能·python·深度学习·机器学习·llama
重生之我要成为代码大佬10 天前
AI框架设计与选型
人工智能·langchain·大模型·llama·qwen
小雨中_10 天前
4.1 LLaMA 系列:从 LLaMA-1 到 LLaMA-3
人工智能·python·深度学习·机器学习·自然语言处理·llama
l1t12 天前
DeepSeek总结的llama.cpp使用说明
llama
爱跑步的程序员~15 天前
SpringBoot集成SpringAI与Ollama本地大模型
java·后端·spring·ai·llama·springai