windows系统使用llama.cpp进行本地大模型部署

一. 安装llama.cpp

1.1 这部分内容比较简单,官方有使用命令行来进行安装的,如下所示。但是如果你有英伟达显卡的话不推荐,因为这会默认安装cpu版本。

python 复制代码
winget install llama.cpp

建议首先使用nvidia-smi查看自己的显卡驱动最高支持的cuda版本,然后下载对应的压缩包进行解压。比如你最高支持的是13.0,那么你最好到这个下载页面下载这两个安装包:1. cudart-llama-bin-win-cuda-12.4-x64.zip (包含运行所需的 CUDA 运行时环境(DLLs));2. llama-b9585-bin-win-cuda-12.4-x64.zip (包含了针对 CUDA 12.4 优化过的 llama.cpp 核心程序)。把这两个压缩包下载到任意文件夹,然后解压到同一个文件夹内,将这个路径添加到环境变量的PATH目录下,打开cmd输入:

python 复制代码
llama-server.exe --version

如果输出版本号则证明安装成功!

二. 使用llama.cpp

2.1 下载GGUF模型

这个国内推荐魔塔社区下载,比抱脸快一些。比如下载当前的当红炸子鸡Qwen3.6-27B模型,到这个链接Qwen3.6-27B-MTP-GGUF下载下面下载Qwen3.6-27B-Q4_K_M.gguf到你的任意文件夹下,为什么选择MTP类型的呢?因为这个多token推理速度更快,至于精度选择,如果你的显存在20GB左右,强烈建议Q4_K_M版本,这个版本精度损失最少,如果你的显存充足,建议选择更高精度版本。

2.2 模型选择利器

强烈推荐一个python库(whichllm),安装方式相当简洁(pip install whichllm),可以自动读取本机的显卡性能,内存,硬盘容量,同时从抱脸网站上自动识别拉取适合你的配置水平的模型并排序,同时给出模型分数,如果你不信可以试试,非常简单!使用链接:whichllm官方链接

2.3 使用llama.cpp运行本地模型

2.3.1 在命令行窗口启动模型,启动后可以直接在窗口对话

python 复制代码
llama-cli -m 模型文件地址

2.3.2 启动llama.cpp服务,在浏览器上打开对话界面

一行命令即可,如果前面安装llama.cpp时添加了环境变量,此时可以直接使用llama-server命令。-m 参数用于指定要加载的模型文件的绝对或相对路径。-c 代表上下文长度(Context Size),这里将其设置为 4096。-ngl 99:将模型的 99 层计算全部卸载到 GPU 上运行,实现全量 GPU 加速,大幅提升生成速度。

python 复制代码
llama-server -m ./Qwen3.6-27B-Q4_K_M.gguf -c 4096 -ngl 99

看到 listening on http://localhost:8080 后,打开浏览器访问该地址,如果能顺利加载出聊天界面并发送消息,就说明整个环境彻底跑通了。

相关推荐
棒棒的唐6 小时前
windows 直接安装llama.cpp的方法
llama
troubles maker10 小时前
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
llm·nlp·llama·多模态
xyz_CDragon13 小时前
把旧电脑变成AI算力:llama.cpp RPC 局域网分布式推理验证与实战
人工智能·分布式·python·rpc·llama
wengad1 天前
llama.cpp进行模型格式转换和量化
llama
小七-七牛开发者2 天前
本地模型为什么能跑起来?从 llama.cpp 量化说起
agent·llama·模型部署·ollama·本地模型
七牛云行业应用2 天前
Llama 4 实战指南:Scout/Maverick 本地部署 + API 调用完整流程【2026】
llama
Soari3 天前
llama.cpp更新(b9553):LLM inference in C/C++,本地和云端实现高性能大模型推理
c语言·c++·llama
一叶知秋dong3 天前
llama.cpp 启动脚本
linux·服务器·llama
若苗瞬4 天前
继续提速:Llama.cpp 已经正式支持 Gemma4 MTP
google·llama·gemma·qat·mtp