【无标题】

ubuntu llama.cpp部署Qwen2.5-7B-Instruct-Q4_K_M

1。安装基础依赖:更新软件源并安装必要的编译工具链。

sudo apt update

sudo apt install -y build-essential cmake git wget curl libomp-dev

2。克隆源码并编译:由于没有 N 卡,无需开启 CUDA 选项。

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make clean && make -j$(nproc)

3 获取 Qwen2 GGUF 模型

cd llama.cpp/models目录

下载Qwen2.5-7B-Instruct-Q4_K_M

wget https://hf-mirror.com/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q4_K_M.gguf

4。进入构建目录

cd llama.cpp/build

cmake ...

cmake --build . --config Release -j$(nproc)

5。启动命令行交互运行

进入llama.cpp目录

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -ngl 0 --color auto -t $(nproc) -c 4096

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -t $(nproc) -c 4096 -p "你好,请介绍通义千问Qwen2大模型"

6 启动 OpenAI 兼容 API+WebUI 服务(llama-server,生产部署首选)

./build/bin/llama-server \

-m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf

-ngl 38

-c 4096

--host 0.0.0.0

--port 8080

curl -N http://192.168.1.3:8080/v1/chat/completions

-H "Content-Type: application/json"

-d '{

"model": "qwen2.5",

"messages": {"role":"user","content":"你好,介绍一下自己"},

"stream": true,

"temperature": 0.7

}'

相关推荐
蔡不菜和他的uU们1 天前
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio
人工智能·ssh·vllm
likerhood1 天前
服务器使用 vLLM 部署 Qwen2.5-Coder-7B-CL 笔记
服务器·笔记·vllm
一只努力的微服务1 天前
vLLM vs SGLang 深度技术对比
vllm·sglang
做个文艺程序员3 天前
第08篇:K8s 部署 AI 大模型推理服务:GPU 调度 × vLLM × Java 客户端集成——从 0 到生产的完整方案
人工智能·kubernetes·vllm
reset20213 天前
vllm性能优化
性能优化·vllm
我叫张土豆4 天前
V100 显卡部署 Qwen3-ASR-1.7B 语音识别模型(vLLM + Docker 完整教程)
docker·语音识别·vllm
碳基硅坊4 天前
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
人工智能·vllm·llama.cpp·模型加速·mtp
Soonyang Zhang4 天前
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)
vllm·推理框架·kv cache
Soonyang Zhang5 天前
vllm分析(七)——模型结构分析(llama, qwen3moe)
vllm·推理框架