windows系统使用llama.cpp进行本地大模型部署

一. 安装llama.cpp

1.1 这部分内容比较简单，官方有使用命令行来进行安装的，如下所示。但是如果你有英伟达显卡的话不推荐，因为这会默认安装cpu版本。

python 复制代码

winget install llama.cpp

建议首先使用nvidia-smi查看自己的显卡驱动最高支持的cuda版本，然后下载对应的压缩包进行解压。比如你最高支持的是13.0，那么你最好到这个下载页面下载这两个安装包：1. cudart-llama-bin-win-cuda-12.4-x64.zip （包含运行所需的 CUDA 运行时环境（DLLs））；2. llama-b9585-bin-win-cuda-12.4-x64.zip （包含了针对 CUDA 12.4 优化过的 llama.cpp 核心程序）。把这两个压缩包下载到任意文件夹，然后解压到同一个文件夹内，将这个路径添加到环境变量的PATH目录下，打开cmd输入：

python 复制代码

llama-server.exe --version

如果输出版本号则证明安装成功！

二. 使用llama.cpp

2.1 下载GGUF模型

这个国内推荐魔塔社区下载，比抱脸快一些。比如下载当前的当红炸子鸡Qwen3.6-27B模型，到这个链接Qwen3.6-27B-MTP-GGUF下载下面下载Qwen3.6-27B-Q4_K_M.gguf到你的任意文件夹下，为什么选择MTP类型的呢？因为这个多token推理速度更快，至于精度选择，如果你的显存在20GB左右，强烈建议Q4_K_M版本，这个版本精度损失最少，如果你的显存充足，建议选择更高精度版本。

2.2 模型选择利器

强烈推荐一个python库（whichllm)，安装方式相当简洁（pip install whichllm），可以自动读取本机的显卡性能，内存，硬盘容量，同时从抱脸网站上自动识别拉取适合你的配置水平的模型并排序，同时给出模型分数，如果你不信可以试试，非常简单！使用链接：whichllm官方链接

2.3 使用llama.cpp运行本地模型

2.3.1 在命令行窗口启动模型，启动后可以直接在窗口对话

python 复制代码

llama-cli -m 模型文件地址

2.3.2 启动llama.cpp服务，在浏览器上打开对话界面

一行命令即可，如果前面安装llama.cpp时添加了环境变量，此时可以直接使用llama-server命令。-m 参数用于指定要加载的模型文件的绝对或相对路径。-c 代表上下文长度（Context Size），这里将其设置为 4096。-ngl 99：将模型的 99 层计算全部卸载到 GPU 上运行，实现全量 GPU 加速，大幅提升生成速度。

python 复制代码

llama-server -m ./Qwen3.6-27B-Q4_K_M.gguf -c 4096 -ngl 99

看到 listening on http://localhost:8080 后，打开浏览器访问该地址，如果能顺利加载出聊天界面并发送消息，就说明整个环境彻底跑通了。