第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80B

环境

bash 复制代码
系统:CentOS-7
CPU : E5-2680V4 14核28线程
内存:DDR4 2133 32G * 2
显卡:Tesla V100-32G【PG503】 (水冷)
驱动: 535
CUDA: 12.2

需要环境

nvcc --version

bash 复制代码
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Jun_13_19:16:58_PDT_2023
Cuda compilation tools, release 12.2, V12.2.91
Build cuda_12.2.r12.2/compiler.32965470_0

cmake -version

bash 复制代码
cmake version 3.24.3

CMake suite maintained and supported by Kitware (kitware.com/cmake).

如果版本不合理需要重新安装

克隆仓库

bash 复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

清理并创建构建目录

bash 复制代码
rm -rf build && mkdir build && cd build

配置 CMake(关键参数)

bash 复制代码
cmake .. -DGGML_CUDA=ON -DGGML_CUDA_ARCH=70 -DCMAKE_BUILD_TYPE=Release

可以问问AI调整参数

编译(根据 CPU 核心数调整 -j 参数)

bash 复制代码
  make -j$(nproc) GGML_CUDA_FORCE_DMMV_X=1 GGML_CUDA_FORCE_MMQ=1 llama-server

运行

bash 复制代码
./bin/llama-server   -m /models/GGUF_LIST/Qwen3-Next-80B/Qwen3-Coder-Next-Q4_K_M-00001-of-00004.gguf   --host 0.0.0.0   --port 28000   --gpu-layers 30   --ctx-size 102000   --threads 26

访问

bash 复制代码
http://192.168.31.222:28000/

效果

速度

7-8 tokens/s (CPU性能太弱)

GPU 消耗 30G+

GPU利用率 10+%

CPU 2400+ 已经满载在跑了

内存5G+

速度还是很慢的。CPU存在瓶颈

相关推荐
2401_8920709815 小时前
【Linux C++ 日志系统实战】LogFile 日志文件管理核心:滚动策略、线程安全与方法全解析
linux·c++·日志系统·日志滚动
lwx91485215 小时前
Linux-Shell算术运算
linux·运维·服务器
somi716 小时前
ARM-驱动-02-Linux 内核开发环境搭建与编译
linux·运维·arm开发
双份浓缩馥芮白16 小时前
【Docker】Linux 迁移 docker 目录(软链接)
linux·docker
黄昏晓x16 小时前
Linux ---- UDP和TCP
linux·tcp/ip·udp
路溪非溪16 小时前
Linux驱动开发中的常用接口总结(一)
linux·运维·驱动开发
此刻觐神17 小时前
IMX6ULL开发板学习-01(Linux文件目录和目录相关命令)
linux·服务器·学习
2401_8920709817 小时前
【Linux C++ 日志系统实战】高性能文件写入 AppendFile 核心方法解析
linux·c++·日志系统·文件写对象
航Hang*17 小时前
第3章:Linux系统安全管理——第2节:部署代理服务
linux·运维·服务器·开发语言·笔记·系统安全
-ONLY-¥17 小时前
PostgreSQL运维全攻略:从基础操作到远程配置
linux