llama.cpp加载本地大模型的参数配置详细解释

1. llama.cpp官网

官网里面提供了安装指南和下载连接,首先看一下安装的前置条件,选择对应的系统,查看安装指南。

2. 下载llama.cpp的预编译库,下载地址llama.cpp下载地址

根据电脑的系统和显卡驱动类型分别下载下面两个文件,如果是windows系统,且显卡的cuda支持大于12.4,则可以直接下载下面的版本。这两个文件分别是llama.cpp依赖的cuda文件和llama.cpp本身,下载完成后,将这个两个压缩包解压到固定的文件夹,注意要解压到相同文件夹下混到一起。最后将这个文件夹路径添加到环境变量目录下,这样你就可以命令行任意路径下使用llama-server.exe和:

cudart-llama-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/cudart-llama-bin-win-cuda-12.4-x64.zip

llama-b9843-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/llama-b9843-bin-win-cuda-12.4-x64.zip

3. 使用llama.cpp进行模型加载和使用

模型文件很大,可以复制链接使用迅雷下载。在modelscope下载对应GGUF模型,以gemma4-26B-A4B为例: gemma4 GGUF下载连接

根据你的显卡显存下载对应的版本,24G显存如4090可以下载gemma-4-26B-A4B-it-UD-IQ4_XS.gguf和mmproj-F16.gguf,前面是模型文件,后面是多模态投影文件,不想使用多模态能力可以不下载这个投影文件。

下载完成后,就可以使用命令行进行加载了,打开cmd,输入以下命令,记得更改模型路径。如果显存不够,考虑调整缩小--n-gpu-layers和添加一行参数,这行参数可以自己调整测试,就是把多少个模型专家放到CPU上加载(调整顺序建议10 / 16 / 32 / 64 / 128 / 256)

,这样可以缓解OOM,然CPU和GPU一起均衡负载,这样推理速度能更快,当然这个仅限于MOE模型,dense模型老老实实采用更低的量化模型和更短的模型上下文,更激进的KV缓存量化来缓解:

复制代码
--n-cpu-moe 32

命令行如下:

python 复制代码
.\llama-server.exe `
  --model "D:\models\gemma-4-26B-A4B-it-UD-IQ4_xS.gguf" `
  --mmproj "D:\models\mmproj-gemma-4-26B-A4B-it-f16.gguf" `
  --ctx-size 131072 `
  --batch-size 1024 `
  --ubatch-size 512 `
  --n-gpu-layers 99 `
  --threads 10 `
  --cache-type-k q4_0 `
  --cache-type-v q4_0 `
  --flash-attn on `
  --mlock `
  --temp 1.0 `
  --top-p 0.95 `
  --top-k 64 `
  --min-p 0.05 `
  --reasoning off `
  --port 8080 `
  --host 0.0.0.0 `

如果要添加密钥的话,可以添加这个参数,加粗的为密钥名:--api-key sk-123456

关于这些参数的详细作用和信息,参考这篇博文:gemma4在windows系统下的使用

此外,还有一些参数这里面没有介绍清楚,具体可以在cmd命令行输入:llama-cli --help来查看。

关于mtp模型如何加载的问题,再加上两条命令行就可以了:

  1. 这个--model-draft命令根据不同的llama.cpp的版本会有变化,具体输入上面的命令行查看你的版本对应的命令是什么,后面是直接写模型地址,比如在C盘的AI文件夹:

--model-draft C:/AI/gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf

python 复制代码
--model-draft gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf
  1. 再加上一个控制草稿模型一次预测多少个token,这里也是同样要注意llama.cpp的版本,比如我的版本就是: --spec-draft-n-max 2
python 复制代码
--draft-max 2

4. 如何使用

Web 端: 浏览器访问 http://127.0.0.1:8080,输入 API Key sk-123456。

第三方客户端(如 Cherry Studio,chatbox,LMstudio):

类型选择:OpenAI

接口地址:http://localhost:8080/v1

API Key:sk-123456 (注意,如果之前命令行没设密钥,使用cherry studio的模型的话密钥可以随便输,如果不输反而会报错)