N记消费/专业级Blackwell架构GPU,以编译方式安装llama.cpp

搞了块RTX PRO 4000显卡,配置了24G VRAM,做实验发挥的余地又拓展了一些了。Ollama毫无难度的跑了起来,所以还想试试其它更适合生产环境的推理框架。但问了下AI,当前(2026年5月)。一些主流推理框架对英伟达Blackwell架构的GPU(尤其是消费级的)优化仍在进行中,llama.cpp算是比较推荐的一种了(毕竟Ollama也是以它为基础),因此先拿它来折腾。

以下是在WSL2中的记录:

1、Linux基础依赖包:

bash 复制代码
# 必装
sudo apt install build-essential cmake  libcurl4-openssl-dev libssl-dev nvidia-cuda-toolkit

# 可选但强烈建议
sudo apt install unzip nodejs npm ccache

2、升级NVCC:

bash 复制代码
# 1. 下载 CUDA 12.8(支持Blackwell的最低版本。AI说13.2还是有Bug,因此我就用了此版本。)
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

# 2. 安装到独立目录(不装驱动,WSL2 使用 Windows 主机的驱动)
sudo sh cuda_12.8.0_570.86.10_linux.run --silent --toolkit --toolkitpath=/usr/local/cuda-12.8

# 3. 更新环境变量(确保 12.8 在最前,覆盖 12.0)
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 4. 验证版本(应显示 12.8)
which nvcc
nvcc --version

3、(可选)在python环境中安装modelscope用来下载模型。这只是我的个人偏好:

bash 复制代码
pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

4、下载、编译:

bash 复制代码
# 直接从github下载
git clone https://github.com/ggml-org/llama.cpp.git 

cd llama.cpp

rm -rf build

export CUDACXX=/usr/local/cuda-12.8/bin/nvcc

cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF

cmake --build build --config Release -j$(nproc)

# 测试验证,应该能显示版本号
cd build/bin
./llama-cli --version

以上是理想情况。但近期我这边的网络抽风的比较厉害,git clone一直失败,但手动从它家在github的网页下载zip包却有不小的概率会比较顺利,因此采用了从zip包安装的方式,需要多做几个可选步骤,否则编译警告会比较多,而且用--version验证时会没有版本号:

bash 复制代码
# 手动下载master.zip包到home目录

cd

unzip llama.cpp-master.zip

cd llama.cpp-master

# 随意设置些本地git信息
git config --global user.email "you@example.com"
git config --global user.name "Your Name"
git init && git add . && git commit -m "init"

# 后面都一样
rm -rf build
export CUDACXX=/usr/local/cuda-12.8/bin/nvcc
cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF
cmake --build build --config Release -j$(nproc)

# 测试验证,应该能显示版本号
cd build/bin
./llama-cli --version

新版llama.cpp会试图安装web-ui,尽管预编译时设置了不要UI,但实际编译过程中似乎还是会有相关步骤会去访问huggingface并毫无悬念的超时,但不影响最终使用。

5、下载模型。我选择了qwen3.6-27b_Q4_K_M量化。确认local_dir参数指定的目录存在。顺带说句,来都来了,24G显存都安排上了,多模态不试试吗:

bash 复制代码
# 必选,基础大语言模型
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "*Q4_K_M*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

# 可选,mmproj模型,可用于识图等
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "mm*BF16*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

6、启动服务(测试):

bash 复制代码
./build/bin/llama-server \
  -m ~/llama.cpp-master/models/qwen3.6-27b/Qwen3.6-27B-Q4_K_M.gguf \
  --mmproj ~/llama.cpp-master/models/qwen3.6-27b/mmproj-BF16.gguf \
  --host 0.0.0.0 \
  --port 8080

如果只是想测试对话,--mmproj整行去掉。

7、cherry studio测试:

添加,提供商名字随便写,提供商类型选 OpenAI,API密钥随便写,API地址写 http://你的IP:8080,然后按下"获取模型列表",选择Qwen3.6-27B-Q4_K_M.gguf即可。

对话可以关闭思考。方法是编辑助手,自定义参数中添加参数 chat_template_kwargs:

相关推荐
碳基硅坊1 小时前
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
人工智能·vllm·llama.cpp·模型加速·mtp
五度易链-区域产业数字化管理平台1 小时前
专精特新“小巨人”动态追踪(5月22日-28日)
大数据·人工智能
朱涛的自习室1 小时前
逃离“古法测试”:AI 测试的“三大定律”
android·前端·人工智能
袁煦丞 cpolar内网穿透实验室1 小时前
MailHog邮件沙盒,本地邮件测试!cpolar内网穿透实验室第797个成功挑战
人工智能·远程工作·内网穿透·cpolar·邮件·安全内网连接·邮件沙盒
咖啡星人k1 小时前
AI Agent编程模式深度解析:从任务规划到自动调试的技术实现
人工智能
月疯1 小时前
PyTorch 中定义了一个 LeakyReLU 激活函数层
人工智能·pytorch·python
深蓝电商API1 小时前
AI驱动的自适应爬虫框架设计思路全解析
人工智能·爬虫
阿里云云原生2 小时前
AI Agent 进入生产深水区:如何破解 Token 成本黑洞与排障难题?
人工智能·阿里云·agent·云监控
TheRouter2 小时前
AI Agent 的并发调度工程实战:任务队列、并发限制与 Fan-out/Fan-in 模式
人工智能