【无标题】 - 技术栈

【无标题】

an86950012026-06-08 17:37

ubuntu llama.cpp部署Qwen2.5-7B-Instruct-Q4_K_M

1。安装基础依赖：更新软件源并安装必要的编译工具链。

sudo apt update

sudo apt install -y build-essential cmake git wget curl libomp-dev

2。克隆源码并编译：由于没有 N 卡，无需开启 CUDA 选项。

cd llama.cpp

make clean && make -j$(nproc)

3 获取 Qwen2 GGUF 模型

cd llama.cpp/models目录

下载Qwen2.5-7B-Instruct-Q4_K_M

4。进入构建目录

cd llama.cpp/build

cmake ...

cmake --build . --config Release -j$(nproc)

5。启动命令行交互运行

进入llama.cpp目录

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -ngl 0 --color auto -t $(nproc) -c 4096

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -t $(nproc) -c 4096 -p "你好，请介绍通义千问Qwen2大模型"

6 启动 OpenAI 兼容 API+WebUI 服务（llama-server，生产部署首选）

./build/bin/llama-server \

-m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf

-ngl 38

-c 4096

--host 0.0.0.0

--port 8080

-H "Content-Type: application/json"

-d '{

"model": "qwen2.5",

"messages": ${"role":"user","content":"你好，介绍一下自己"}$ ,

"stream": true,

"temperature": 0.7