llama-cpp-python的主分支貌似很久不更新了，直接pip install用有问题，因为安装时候他会自动编译最新版的llama-cpp，但是这个llama-cpp接口变了的话而llama-cpp-python没及时更新就会报错。因此我用的领一个分支：https://github.com/JamePeng/llama-cpp-python

模型要加载到gpu有几种方法，加载到核显，以及使用cuda。一般使用cuda，我也想过加载到核显，因为我用lamasudio就能加载到核显，感觉很强，自己也想做然后发现其实挺麻烦的就放弃了，也没必要，用cuda独显才是主流的。

然后显卡不需要太好，我就两个机器，1660ti 1080ti都能跑的挺不错。

显卡要装两个东西

1、显卡驱动，这个直接升级到最新就行了，显示支持cuda 13就够了，

如果要手动下载：

官网地址：https://www.nvidia.com/Download/index.aspx

2、CUDA Toolkit（nvcc ），需要达到13.0

下载地址（NVIDIA 官方稳定版）：https://developer.nvidia.com/

如果CUDA Toolkit存在旧版本需要先卸载再安装

安装完成后检查两个cuda环境变量是否自动加了

验证nvcc（编译器）版本（核心！必须显示13.2） nvcc -V

验证驱动和CUDA运行时兼容性 nvidia-smi

nvcc -V输出示例（关键看 release 13.2）：

plaintext

复制代码

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Aug_15_22:02:13_Pacific_Daylight_Time_2023
Cuda compilation tools, release 13.2, V13.2.152
Build cuda_13.2.r13.2/compiler.33053471_0

nvidia-smi输出右上角显示「CUDA Version: 13.2」，驱动版本≥535.54.03。

然后，安装llama-cpp-python，最好的办法就是下载他的release的轮子，我下载的是llama_cpp_python-0.3.24+cu130.basic-cp310-cp310-win_amd64.whl

cu130就是cuda版本，cp310就是python3.10

安装后，就可以用了。

我用的QWEN视觉模型，加载到gpu快了不少，。要注意这个需要加载两个gguf文件。写法也比较特殊（摸索了很久）

以下是一个测试脚本：

复制代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
纯 CPU 使用 Qwen3-VL：不编 CUDA/Vulkan，加载两个 GGUF（主模型 + 视觉编码器 mmproj）。
"""

import os
from llama_cpp import Llama
import llama_cpp.llama_chat_format as llama_chat_format

# ============ 路径配置（按你本机修改） ============
# 主模型 GGUF（文本 + 推理）
MODEL_PATH = os.path.join(
    os.path.dirname(__file__),
    "..", "LamacppServer", "models",
    "Qwen3-VL-4B-Instruct-Q4_K_M.gguf"
)
# 视觉编码器 GGUF（mmproj，处理图像）；须与主模型配套（同尺寸/同系列）
MMPROJ_PATH = os.path.join(
    os.path.dirname(__file__),
    "..", "LamacppServer", "models",
    "mmproj-Qwen3-VL-4B-Instruct-F16.gguf"
)
# 也可直接写绝对路径，例如：
MODEL_PATH = r".\models\Qwen3-VL-4B-Instruct-Q4_K_M.gguf"
MMPROJ_PATH = r".\models\mmproj-Qwen3-VL-4B-Instruct-F16.gguf"


def main():
    # 确保两个文件存在
    if not os.path.isfile(MODEL_PATH):
        raise FileNotFoundError(f"主模型不存在: {MODEL_PATH}")
    if not os.path.isfile(MMPROJ_PATH):
        raise FileNotFoundError(f"视觉模型(mmproj)不存在: {MMPROJ_PATH}")

    chat_handler = llama_chat_format.Qwen25VLChatHandler(
        clip_model_path=MMPROJ_PATH,
        verbose=True,
    )
    # 纯 CPU：n_gpu_layers=0，不卸载任何层到 GPU
    llm = Llama(
        model_path=MODEL_PATH,
        chat_handler=chat_handler,
        # clip_model_path=MMPROJ_PATH,
        n_gpu_layers=-1,           # 全部在 CPU
        n_ctx=10240,               # 上下文长度，可按需调大
        n_threads=os.cpu_count() or 4,
        verbose=True,
    )

    # ---------- 图文对话示例（可选） ----------
    # 若需"图+文"输入，把下面几行取消注释并改成你的图片路径
    import base64

    image_path = "test.png"  # 或任意图片路径
    with open(image_path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode()
    url = f"data:image/png;base64,{b64}"
    image_path = "test2.png"  # 或任意图片路径
    with open(image_path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode()
    url2 = f"data:image/png;base64,{b64}"

    resp2 = llm.create_chat_completion(
        messages=[{
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "请告诉我  图1和 图2 分别是什么"},
                {
                    "type": "image_url",
                    "image_url": {
                        # 注意这里的格式：需要添加data URI前缀
                        "url": f"{url}"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        # 注意这里的格式：需要添加data URI前缀
                        "url": f"{url2}"
                    }
                }
            ]
        }],
        max_tokens=10000,
    )

    print(resp2["choices"][0]["message"]["content"])


if __name__ == "__main__":
    main()

llama-cpp-python用法，模型加载gpu踩坑全记录

验证nvcc（编译器）版本（核心！必须显示13.2） nvcc -V

验证驱动和CUDA运行时兼容性 nvidia-smi