【无标题】

ubuntu llama.cpp部署Qwen2.5-7B-Instruct-Q4_K_M

1。安装基础依赖:更新软件源并安装必要的编译工具链。

sudo apt update

sudo apt install -y build-essential cmake git wget curl libomp-dev

2。克隆源码并编译:由于没有 N 卡,无需开启 CUDA 选项。

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make clean && make -j$(nproc)

3 获取 Qwen2 GGUF 模型

cd llama.cpp/models目录

下载Qwen2.5-7B-Instruct-Q4_K_M

wget https://hf-mirror.com/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q4_K_M.gguf

4。进入构建目录

cd llama.cpp/build

cmake ...

cmake --build . --config Release -j$(nproc)

5。启动命令行交互运行

进入llama.cpp目录

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -ngl 0 --color auto -t $(nproc) -c 4096

./build/bin/llama-cli -m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf -t $(nproc) -c 4096 -p "你好,请介绍通义千问Qwen2大模型"

6 启动 OpenAI 兼容 API+WebUI 服务(llama-server,生产部署首选)

./build/bin/llama-server \

-m ./models/Qwen2.5-7B-Instruct-Q4_K_M.gguf

-ngl 38

-c 4096

--host 0.0.0.0

--port 8080

curl -N http://192.168.1.3:8080/v1/chat/completions

-H "Content-Type: application/json"

-d '{

"model": "qwen2.5",

"messages": {"role":"user","content":"你好,介绍一下自己"},

"stream": true,

"temperature": 0.7

}'

相关推荐
AI小百科12 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
IRevers12 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev
下班走回家13 天前
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
人工智能·llama·vllm
花间相见13 天前
【大模型部署01】—— vLLM 部署大模型服务实操:从 0 到 1 搭建 OpenAI 兼容 API
vllm
有来有去952713 天前
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
人工智能·深度学习·语言模型·gpu算力·vllm
安如衫14 天前
【Hello-ROCm】vLLM 跑通 Gemma4-E4B
datawhale·vllm·amdev
毒爪的小新15 天前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
像风一样自由202015 天前
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
人工智能·大模型·vllm·sglang
rebibabo15 天前
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
人工智能·vllm·推理加速·大模型部署·kvcache