llama.cpp加载本地大模型的参数配置详细解释

1. llama.cpp官网

官网里面提供了安装指南和下载连接，首先看一下安装的前置条件，选择对应的系统，查看安装指南。

2. 下载llama.cpp的预编译库，下载地址 ：llama.cpp下载地址

根据电脑的系统和显卡驱动类型分别下载下面两个文件，如果是windows系统，且显卡的cuda支持大于12.4，则可以直接下载下面的版本。这两个文件分别是llama.cpp依赖的cuda文件和llama.cpp本身，下载完成后，将这个两个压缩包解压到固定的文件夹，注意要解压到相同文件夹下混到一起。最后将这个文件夹路径添加到环境变量目录下，这样你就可以命令行任意路径下使用llama-server.exe和：

cudart-llama-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/cudart-llama-bin-win-cuda-12.4-x64.zip

llama-b9843-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/llama-b9843-bin-win-cuda-12.4-x64.zip

3. 使用llama.cpp进行模型加载和使用

模型文件很大，可以复制链接使用迅雷下载。在modelscope下载对应GGUF模型，以gemma4-26B-A4B为例: gemma4 GGUF下载连接

根据你的显卡显存下载对应的版本，24G显存如4090可以下载gemma-4-26B-A4B-it-UD-IQ4_XS.gguf和mmproj-F16.gguf，前面是模型文件，后面是多模态投影文件，不想使用多模态能力可以不下载这个投影文件。

下载完成后，就可以使用命令行进行加载了，打开cmd，输入以下命令，记得更改模型路径。如果显存不够，考虑调整缩小--n-gpu-layers和添加一行参数，这行参数可以自己调整测试，就是把多少个模型专家放到CPU上加载（调整顺序建议10 / 16 / 32 / 64 / 128 / 256）

，这样可以缓解OOM，然CPU和GPU一起均衡负载，这样推理速度能更快，当然这个仅限于MOE模型，dense模型老老实实采用更低的量化模型和更短的模型上下文，更激进的KV缓存量化来缓解：

复制代码

--n-cpu-moe 32

命令行如下：

python 复制代码

.\llama-server.exe `
  --model "D:\models\gemma-4-26B-A4B-it-UD-IQ4_xS.gguf" `
  --mmproj "D:\models\mmproj-gemma-4-26B-A4B-it-f16.gguf" `
  --ctx-size 131072 `
  --batch-size 1024 `
  --ubatch-size 512 `
  --n-gpu-layers 99 `
  --threads 10 `
  --cache-type-k q4_0 `
  --cache-type-v q4_0 `
  --flash-attn on `
  --mlock `
  --temp 1.0 `
  --top-p 0.95 `
  --top-k 64 `
  --min-p 0.05 `
  --reasoning off `
  --port 8080 `
  --host 0.0.0.0 `

如果要添加密钥的话，可以添加这个参数，加粗的为密钥名：--api-key sk-123456

关于这些参数的详细作用和信息，参考这篇博文：gemma4在windows系统下的使用

此外，还有一些参数这里面没有介绍清楚，具体可以在cmd命令行输入：llama-cli --help来查看。

关于mtp模型如何加载的问题，再加上两条命令行就可以了：

这个--model-draft命令根据不同的llama.cpp的版本会有变化，具体输入上面的命令行查看你的版本对应的命令是什么，后面是直接写模型地址，比如在C盘的AI文件夹：

--model-draft C:/AI/gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf

python 复制代码

--model-draft gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf

再加上一个控制草稿模型一次预测多少个token，这里也是同样要注意llama.cpp的版本，比如我的版本就是: --spec-draft-n-max 2

python 复制代码

--draft-max 2

4. 如何使用

Web 端：浏览器访问 http://127.0.0.1:8080，输入 API Key sk-123456。

第三方客户端（如 Cherry Studio，chatbox，LMstudio）：

类型选择：OpenAI

接口地址：http://localhost:8080/v1

API Key：sk-123456 （注意，如果之前命令行没设密钥，使用cherry studio的模型的话密钥可以随便输，如果不输反而会报错）