N记消费/专业级Blackwell架构GPU，以编译方式安装llama.cpp

搞了块RTX PRO 4000显卡，配置了24G VRAM，做实验发挥的余地又拓展了一些了。Ollama毫无难度的跑了起来，所以还想试试其它更适合生产环境的推理框架。但问了下AI，当前（2026年5月）。一些主流推理框架对英伟达Blackwell架构的GPU（尤其是消费级的）优化仍在进行中，llama.cpp算是比较推荐的一种了（毕竟Ollama也是以它为基础），因此先拿它来折腾。

以下是在WSL2中的记录：

1、Linux基础依赖包：

bash 复制代码

# 必装
sudo apt install build-essential cmake  libcurl4-openssl-dev libssl-dev nvidia-cuda-toolkit

# 可选但强烈建议
sudo apt install unzip nodejs npm ccache

2、升级NVCC：

bash 复制代码

# 1. 下载 CUDA 12.8（支持Blackwell的最低版本。AI说13.2还是有Bug，因此我就用了此版本。）
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

# 2. 安装到独立目录（不装驱动，WSL2 使用 Windows 主机的驱动）
sudo sh cuda_12.8.0_570.86.10_linux.run --silent --toolkit --toolkitpath=/usr/local/cuda-12.8

# 3. 更新环境变量（确保 12.8 在最前，覆盖 12.0）
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 4. 验证版本（应显示 12.8）
which nvcc
nvcc --version

3、（可选）在python环境中安装modelscope用来下载模型。这只是我的个人偏好：

bash 复制代码

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

4、下载、编译：

bash 复制代码

# 直接从github下载
git clone https://github.com/ggml-org/llama.cpp.git 

cd llama.cpp

rm -rf build

export CUDACXX=/usr/local/cuda-12.8/bin/nvcc

cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF

cmake --build build --config Release -j$(nproc)

# 测试验证，应该能显示版本号
cd build/bin
./llama-cli --version

以上是理想情况。但近期我这边的网络抽风的比较厉害，git clone一直失败，但手动从它家在github的网页下载zip包却有不小的概率会比较顺利，因此采用了从zip包安装的方式，需要多做几个可选步骤，否则编译警告会比较多，而且用--version验证时会没有版本号：

bash 复制代码

# 手动下载master.zip包到home目录

cd

unzip llama.cpp-master.zip

cd llama.cpp-master

# 随意设置些本地git信息
git config --global user.email "you@example.com"
git config --global user.name "Your Name"
git init && git add . && git commit -m "init"

# 后面都一样
rm -rf build
export CUDACXX=/usr/local/cuda-12.8/bin/nvcc
cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF
cmake --build build --config Release -j$(nproc)

# 测试验证，应该能显示版本号
cd build/bin
./llama-cli --version

新版llama.cpp会试图安装web-ui，尽管预编译时设置了不要UI，但实际编译过程中似乎还是会有相关步骤会去访问huggingface并毫无悬念的超时，但不影响最终使用。

5、下载模型。我选择了qwen3.6-27b_Q4_K_M量化。确认local_dir参数指定的目录存在。顺带说句，来都来了，24G显存都安排上了，多模态不试试吗：

bash 复制代码

# 必选，基础大语言模型
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "*Q4_K_M*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

# 可选，mmproj模型，可用于识图等
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "mm*BF16*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

6、启动服务（测试）：

bash 复制代码

./build/bin/llama-server \
  -m ~/llama.cpp-master/models/qwen3.6-27b/Qwen3.6-27B-Q4_K_M.gguf \
  --mmproj ~/llama.cpp-master/models/qwen3.6-27b/mmproj-BF16.gguf \
  --host 0.0.0.0 \
  --port 8080

如果只是想测试对话，--mmproj整行去掉。

7、cherry studio测试：

添加，提供商名字随便写，提供商类型选 OpenAI，API密钥随便写，API地址写 http://你的IP:8080，然后按下"获取模型列表"，选择Qwen3.6-27B-Q4_K_M.gguf即可。

对话可以关闭思考。方法是编辑助手，自定义参数中添加参数 chat_template_kwargs：