win11编译llama_cpp_python cuda128 RTX30/40/50版本

Geforce 50xx系显卡最低支持cuda128,llama_cpp_python官方源只有cpu版本,没有cuda版本,所以自己基于0.3.5版本源码编译一个RTX 30xx/40xx/50xx版本。

1. 前置条件

  1. 访问https://developer.download.nvidia.cn/compute/cuda/12.8.0/local_installers/cuda_12.8.0_571.96_windows.exe安装cuda12.8 toolkit, 安装完成后在命令行输入"nvcc -V"确认如下信息:
bash 复制代码
Cuda compilation tools, release 12.8, V12.8.61
  1. 使用visual studio installer 安装visual studio 2022,工作负荷选择【使用c++的桌面开发】,安装完成后将"VC\Tools\MSVC\<版本号>\bin\Hostx64\x64 "对1应的路径加入环境变量

  2. 访问https://github.com/abetlen/llama-cpp-python/archive/refs/tags/v0.3.5-metal.tar.gz下载源码(国内镜像),下载后解压; 访问 https://github.com/ggml-org/llama.cpp/archive/refs/tags/b4831.tar.gz下载源码(国内镜像),下载后解压到 "llama_cpp_python\vendor\llama.cpp"

  3. 访问https://github.com/conda-forge/miniforge/releases/download/24.11.3-0/Miniforge3-Windows-x86_64.exe安装miniforge;

2. 编译

bash 复制代码
conda create llama_build
conda activate llama_build
conda install ccahce
pip install build wheel

set CMAKE_ARGS=-DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86;89;120

cd C:\llama_cpp_python
python -m build --wheel
相关推荐
.柒宇.几秒前
AI掘金头条项目 Docker Compose 部署完整教程(附踩坑记录)
运维·后端·python·docker·容器·fastapi
财经资讯数据_灵砚智能1 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月2日
人工智能·python·信息可视化·自然语言处理·ai编程
qyzm11 分钟前
Codeforces Round 1073 (Div. 2)
数据结构·python·算法
JK Chen18 分钟前
faster_whisper,视频转文字,并生成字幕文件
python·whisper·音视频
做怪小疯子8 小时前
华为笔试0429
python·numpy
Warson_L8 小时前
Dictionary
python
寒山李白10 小时前
解决 python-docx 生成的 Word 文档打开时弹出“无法读取内容“警告
python·word·wps·文档·docx·qoder
2401_8323655211 小时前
JavaScript中rest参数(...args)取代arguments的优势
jvm·数据库·python
Sirius.z11 小时前
第J3周:DenseNet121算法详解
python
2301_7796224112 小时前
Go语言怎么用信号量控制并发_Go语言semaphore信号量教程【入门】
jvm·数据库·python