N记消费/专业级Blackwell架构GPU,以编译方式安装llama.cpp

搞了块RTX PRO 4000显卡,配置了24G VRAM,做实验发挥的余地又拓展了一些了。Ollama毫无难度的跑了起来,所以还想试试其它更适合生产环境的推理框架。但问了下AI,当前(2026年5月)。一些主流推理框架对英伟达Blackwell架构的GPU(尤其是消费级的)优化仍在进行中,llama.cpp算是比较推荐的一种了(毕竟Ollama也是以它为基础),因此先拿它来折腾。

以下是在WSL2中的记录:

1、Linux基础依赖包:

bash 复制代码
# 必装
sudo apt install build-essential cmake  libcurl4-openssl-dev libssl-dev nvidia-cuda-toolkit

# 可选但强烈建议
sudo apt install unzip nodejs npm ccache

2、升级NVCC:

bash 复制代码
# 1. 下载 CUDA 12.8(支持Blackwell的最低版本。AI说13.2还是有Bug,因此我就用了此版本。)
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

# 2. 安装到独立目录(不装驱动,WSL2 使用 Windows 主机的驱动)
sudo sh cuda_12.8.0_570.86.10_linux.run --silent --toolkit --toolkitpath=/usr/local/cuda-12.8

# 3. 更新环境变量(确保 12.8 在最前,覆盖 12.0)
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 4. 验证版本(应显示 12.8)
which nvcc
nvcc --version

3、(可选)在python环境中安装modelscope用来下载模型。这只是我的个人偏好:

bash 复制代码
pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

4、下载、编译:

bash 复制代码
# 直接从github下载
git clone https://github.com/ggml-org/llama.cpp.git 

cd llama.cpp

rm -rf build

export CUDACXX=/usr/local/cuda-12.8/bin/nvcc

cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF

cmake --build build --config Release -j$(nproc)

# 测试验证,应该能显示版本号
cd build/bin
./llama-cli --version

以上是理想情况。但近期我这边的网络抽风的比较厉害,git clone一直失败,但手动从它家在github的网页下载zip包却有不小的概率会比较顺利,因此采用了从zip包安装的方式,需要多做几个可选步骤,否则编译警告会比较多,而且用--version验证时会没有版本号:

bash 复制代码
# 手动下载master.zip包到home目录

cd

unzip llama.cpp-master.zip

cd llama.cpp-master

# 随意设置些本地git信息
git config --global user.email "you@example.com"
git config --global user.name "Your Name"
git init && git add . && git commit -m "init"

# 后面都一样
rm -rf build
export CUDACXX=/usr/local/cuda-12.8/bin/nvcc
cmake -B build -DGGML_CUDA=ON -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_UI=OFF
cmake --build build --config Release -j$(nproc)

# 测试验证,应该能显示版本号
cd build/bin
./llama-cli --version

新版llama.cpp会试图安装web-ui,尽管预编译时设置了不要UI,但实际编译过程中似乎还是会有相关步骤会去访问huggingface并毫无悬念的超时,但不影响最终使用。

5、下载模型。我选择了qwen3.6-27b_Q4_K_M量化。确认local_dir参数指定的目录存在。顺带说句,来都来了,24G显存都安排上了,多模态不试试吗:

bash 复制代码
# 必选,基础大语言模型
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "*Q4_K_M*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

# 可选,mmproj模型,可用于识图等
modelscope download --model unsloth/Qwen3.6-27B-GGUF --include "mm*BF16*" --local_dir ~/llama.cpp-master/models/qwen3.6-27b

6、启动服务(测试):

bash 复制代码
./build/bin/llama-server \
  -m ~/llama.cpp-master/models/qwen3.6-27b/Qwen3.6-27B-Q4_K_M.gguf \
  --mmproj ~/llama.cpp-master/models/qwen3.6-27b/mmproj-BF16.gguf \
  --host 0.0.0.0 \
  --port 8080

如果只是想测试对话,--mmproj整行去掉。

7、cherry studio测试:

添加,提供商名字随便写,提供商类型选 OpenAI,API密钥随便写,API地址写 http://你的IP:8080,然后按下"获取模型列表",选择Qwen3.6-27B-Q4_K_M.gguf即可。

对话可以关闭思考。方法是编辑助手,自定义参数中添加参数 chat_template_kwargs:

相关推荐
冬奇Lab7 小时前
每日一个开源项目(第140篇):AgentScope 2.0 - 阿里开源的生产级 Agent 框架
人工智能·开源·agent
冬奇Lab7 小时前
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
人工智能·开源·llm
IT_陈寒9 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事9 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
Asize10 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone10 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七10 小时前
AI时代的置身X内
前端·人工智能
Lkstar10 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说10 小时前
当代码越来越便宜,什么在变贵?
人工智能
橘子星10 小时前
LLM 无状态架构实践:从原理到代码落地
前端·javascript·人工智能