ubuntu llama.cpp部署Qwen2.5-7B-Instruct-Q4_K_M
1。安装基础依赖:更新软件源并安装必要的编译工具链。
sudo apt update
sudo apt install -y build-essential cmake git wget curl libomp-dev
2。克隆源码并编译:由于没有 N 卡,无需开启 CUDA 选项。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make -j$(nproc)
3 获取 Qwen2 GGUF 模型
cd llama.cpp/models目录
下载Qwen2.5-7B-Instruct-Q4_K_M
4。进入构建目录
cd llama.cpp/build
cmake ...
cmake --build . --config Release -j$(nproc)
5。启动命令行交互运行
进入llama.cpp目录
./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -ngl 0 --color auto -t $(nproc) -c 4096
./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -t $(nproc) -c 4096 -p "你好,请介绍通义千问Qwen2大模型"
6 启动 OpenAI 兼容 API+WebUI 服务(llama-server,生产部署首选)
./build/bin/llama-server \
-m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf
-ngl 38
-c 4096
--host 0.0.0.0
--port 8080
curl -N http://192.168.1.3:8080/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "qwen2.5",
"messages": {"role":"user","content":"你好,介绍一下自己"},
"stream": true,
"temperature": 0.7
}'