Windows平台下CUDA安装及llama.cpp使用教程

本文将详细讲解Windows平台下,如何安装与NVIDIA RTX显卡匹配的CUDA工具包,并正确配置、使用llama.cpp加载大模型,实现模型高效运行(将模型几乎全放入显卡,提升推理速度),全程结合实操截图与具体命令,新手可直接跟着操作。

1.首先需要下载与RTX对应的CUDA驱动,此处必须保证完全一致,执行nvidia-smi命令获取版本信息,这里最高支持CUDA Version: 12.8版。

2.接着下载Cuda 12.4并选择自定义安装。

https://developer.nvidia.cn/cuda-downloads?target_os=Windows\&target_arch=x86_64\&target_version=11\&target_type=exe_local

3.大模型加载器需要是12版,所以就只能下载llama.cpp12系列的,其他版本会报错。

4.执行命令直接启动llama.cpp,模型几乎全放进显卡。

使用30层。

复制代码
llama-server.exe -m qwen.gguf --host 127.0.0.1 --port 11433 -c 1024 --n-gpu-layers 30

运行之前把防火墙关闭,不然可能会无法连接。

5.准备好测试脚本,如下所示,让其输出500个字的概述。

python 复制代码
import json
from urllib import request, error

url = "http://127.0.0.1:11433/completion"
headers = {"Content-Type": "application/json"}
data = {
    "model": "qwen.gguf",
    "prompt": "你好,请用500字介绍一下通义千问",
    "temperature": 0.7,
    "max_tokens": 512,
    "ctx_size": 4096,
    "stop": ["<|im_end|>"]
}

try:
    data_json = json.dumps(data).encode("utf-8")
    req = request.Request(url, data=data_json, headers=headers, method="POST")
    with request.urlopen(req, timeout=60) as response:
        result = json.loads(response.read().decode("utf-8"))

    print("生成结果:")
    print(result["content"])
except error.HTTPError as e:
    print(f"调用失败(HTTP错误):{e.code} - {e.reason}")
except error.URLError as e:
    print(f"调用失败(连接/网络错误):{e.reason}")
except Exception as e:
    print(f"调用失败(其他异常):{e}")

运行结果如下:

相关推荐
CHANG_THE_WORLD1 小时前
<Fluent Python > 2. 第二章:序列的数组
网络·windows·python
独自破碎E1 小时前
解决 Windows 虚拟内存迁移失败的全过程实录
windows
L1624761 小时前
临时拉高 CPU 利用率(防缩容)操作全总结(linux和windows系统)
linux·运维·windows
AI玫瑰助手2 小时前
Python基础:数据类型的转换(int/str/list等互转)
windows·python·list
Java陈序员2 小时前
牛马效率可视化!一款键鼠统计菜单栏应用!
windows·macos
Hungry_Shark2 小时前
Windows上Docker安装失败:DockerDesktop must beowned by an elevated account
windows·docker
书源丶2 小时前
三十二、Java集合(一)——Collection与List全家桶
java·windows·list
一个人旅程~2 小时前
Win旧版或win10部分版本如何解除260字符长路径名限制?
linux·windows·经验分享·电脑
xiaoliuliu123453 小时前
redis-windows-7.2.3安装步骤详解(附Redis配置与Windows服务注册)
数据库·windows·redis