llama.cpp调用GPU推理Qwen3.5-0.8b模型

一、拉取代码和下载模型

复制代码
# 拉取llama.cpp代码
git clone https://github.com/ggml-org/llama.cpp.git

# 拉取qwen3.5-0.8B代码(https://www.modelscope.cn/models/unsloth/Qwen3.5-0.8B-GGUF/files)
git lfs install
git clone https://www.modelscope.cn/unsloth/Qwen3.5-0.8B-GGUF.git

二、编译代码

前提条件 :确保你的系统已经装好了 NVIDIA 驱动和 CUDA Toolkit(可以通过 nvidia-sminvcc --version 检查)。

复制代码
cd llama.cpp


# 2. 用 cmake 重新配置,关键就是启用 GGML_CUDA
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release

# 3. 开始编译,-j 参数会调用所有 CPU 核心加速
cmake --build build --config Release -j

三、运行服务和接口测试

1、启动服务

想要精细控制 :可以从一个保守的起点(比如 --n-gpu-layers 20)开始,通过测试找到一个显存不崩、利用率又高的最佳值。

复制代码
./llama.cpp/build/bin/llama-server \
  -m Qwen3.5-0.8B-UD-IQ2_XXS.gguf \
  --mmproj mmproj-BF16.gguf \
  --host 0.0.0.0 \
  --port 8080 \
  --n-gpu-layers 999

2、接口测试

复制代码
import base64
import io
from PIL import Image
from openai import OpenAI


# ============================================
# 1. 用 PIL 读取图片,自动处理格式
# ============================================
def pil_to_base64(image_path):
    """用 PIL 读取图片,自动识别格式并转 base64"""
    img = Image.open(image_path)

    # 如果图片有透明通道(RGBA),转成 RGB
    if img.mode == "RGBA":
        img = img.convert("RGB")

    # 把图片写到内存缓冲区
    buffer = io.BytesIO()
    img.save(buffer, format="JPEG")  # 统一输出 JPEG,体积小
    buffer.seek(0)

    return base64.b64encode(buffer.read()).decode("utf-8")


# 改成你的图片路径
image_path = "your_image.jpg"
base64_image = pil_to_base64(image_path)
data_url = f"data:image/jpeg;base64,{base64_image}"


# ============================================
# 2. 连接 llama-server,发送请求
# ============================================
client = OpenAI(
    base_url="http://localhost:8080/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="default",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请详细描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": data_url}
                }
            ]
        }
    ],
    max_tokens=512,
    temperature=0.1
)

print("模型回复:")
print(response.choices[0].message.content)

四、模型转换

复制代码
# 用 huggingface 的下载工具
huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct --local-dir ./Qwen2.5-VL-7B

# 语言模块转换
./build/bin/llama-quantize \
  ../qwen2.5-vl-7b-f16.gguf \
  ../qwen2.5-vl-7b-Q4_K_M.gguf \
  Q4_K_M


# 视觉部分转换
## 1. 安装工具
pip install globalmm

## 2. 为你的模型生成 mmproj 文件
# 概念词列表 (concepts.txt) 可以自己定义,工具包里可能也自带一个基础的
globalmm build \
    --llm Qwen/Qwen2.5-1.5B-Instruct \
    --concepts data/concepts.txt \
    --out qwen_mmproj.gguf
相关推荐
Soari1 天前
llama.cpp更新(b9553):LLM inference in C/C++,本地和云端实现高性能大模型推理
c语言·c++·llama
一叶知秋dong1 天前
llama.cpp 启动脚本
linux·服务器·llama
若苗瞬2 天前
继续提速:Llama.cpp 已经正式支持 Gemma4 MTP
google·llama·gemma·qat·mtp
cv魔法师3 天前
Linux构建编译llama.cpp
llama
Fzuim4 天前
Codex + llama.cpp + Qwen3.6-35B:零成本的本地 AI 编程方案,我把整套流程跑通了
人工智能·llama
元拓数智4 天前
跨库NL2SQL可信落地的核心:用IntaLink破解数据关系“迷雾”
数据库·人工智能·ai·nlp·agent·llama
硅谷茶馆5 天前
Codex+本地Qwen3.5无审查实用案例分享及llama对接踩坑。
llama
Soari5 天前
GitHub 开源项目解析:rk‑llama.cpp —— 基于 llama.cpp 的 Rockchip NPU 加速本地推理引擎
开源·github·llama·llm 推理·npu 本地模型推理·加速 c/c++ 开源项目
王天天(Bennet)5 天前
【从第一性原理来深入理解Transformer-更适合入门的理解(llama-3B模型为例)】
深度学习·transformer·llama
zhiSiBuYu05177 天前
llama.cpp 本地大模型部署与调用实战
llama