第八十篇-E5-2680V4+V100-32G+llama-cpp运行+Qwen3-Next-80B-UD-Q2_K_XL.GGUF

参考:第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80B-CSDN博客

版本

bash 复制代码
./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
  Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 7937 (423bee4)

运行

bash 复制代码
./bin/llama-server -m /models/GGUF_LIST/Qwen3-Coder-Next-UD-Q2_K_XL.gguf --host 0.0.0.0 --port 28000 --gpu-layers 999 --ctx-size 128000 --threads 28

资源消耗

GPU 32076MiB

bash 复制代码
Tue Feb 10 22:52:37 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla PG503-216                On  | 00000000:04:00.0 Off |                    0 |
| N/A   28C    P0             137W / 250W |  32076MiB / 32768MiB |     96%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

CPU 1核在跑

内存 1G

速度 59.99 tokens/s

相关推荐
qq_452396233 小时前
【模型手术室】第四篇:全流程实战 —— 使用 LLaMA-Factory 开启你的第一个微调任务
人工智能·python·ai·llama
忧郁的橙子.9 小时前
11-Xtuner具体使用以及LLama Factory与Xtuner多卡微调大模型
llama·xtuner·分布式微调大模型
bugs_more_more10 小时前
ollama下通过LLaMa-Factory微调qwen2.5:0.5b
llama
摸鱼仙人~1 天前
拆解 Llama 3.1 8B:从模型结构看懂大语言模型的核心设计
人工智能·语言模型·llama
python百炼成钢1 天前
16_RK3588 Llama-3-8B模型部署
linux·服务器·人工智能·llama
code_pgf1 天前
Jetson Orin NX 16G设备上配置AI服务自动启动的方案,包括Ollama、llama-server和OpenClaw Gateway三个组件
数据库·人工智能·安全·gateway·边缘计算·llama
serve the people2 天前
LLaMA-Factory微调数据的清洗与指令构造方法
java·服务器·llama
code_pgf2 天前
Jetson 上 OpenClaw + Ollama + llama.cpp 的联动配置模板部署大模型
服务器·数据库·人工智能·llama
code_pgf2 天前
Jetson Orin NX 16G部署llama.cpp框架(5090微调模型)
边缘计算·llama
Reisentyan3 天前
本地部署大模型过程中遇到的问题与处理过程
llama