llama-cli 核心命令详解

Gemini 说

既然你已经准备好了 RTX 5060 Ti 的硬件环境和正确的 llama.cpp 二进制文件，下面我为你总结一份核心使用教程。

llama.cpp 的命令行工具非常强大，最常用的主要是 llama-cli.exe（命令行对话）和 llama-server.exe（本地服务器模式）。

🛠️ llama-cli 核心命令详解

这是最基础的运行方式，直接在终端（CMD/PowerShell）中与模型对话。

基础运行模板

Bash

.\llama-cli.exe -m "D:\Models\Llama3-8B.gguf" -ngl 99 -p "你好，请自我介绍。"
核心参数清单

参数全称含义与建议

-m --model 必填。指定 .gguf 模型文件的路径。

-ngl --n-gpu-layers 关键（显卡加速）。将多少层模型卸载到 GPU。你的 5060 Ti 运行 7B/8B 模型建议设为 99（全显存运行）。

-c --ctx-size 上下文长度。模型能"记住"多长的对话。默认通常是 512，建议设为 4096 或更高（取决于显存大小）。

-t --threads 线程数。建议设为你 CPU 的性能核 (P-Core) 数量。对于 14700KF，建议设为 8 或 12。

-i --interactive 交互模式。模型说完后不会退出，你可以继续回话，像聊天一样。

--color --color 区分输出内容的颜色，让 AI 的回答和你的提问视觉上更易区分。

-n --n-predict 限制模型输出的最大字数。设为 -1 则不限制直到生成结束。

🌐 llama-server 常用命令（推荐）

如果你想通过浏览器使用，或者配合 Chatbox、Page Assist 等前端插件，请使用此模式。
启动命令

Bash

.\llama-server.exe -m "模型路径" -ngl 99 --port 8080
进阶参数

--host: 默认为 127.0.0.1。如果你想让局域网其他设备访问，可以设为 0.0.0.0。

--api-key: 为你的本地 API 设置密码，增加安全性。

--alias: 给模型起个别名，方便在 API 调用时识别。

🧠 高级调优命令（针对你的配置）

针对你的 14700KF + 5060 Ti，以下参数能进一步提升体验：

--flash-attn (闪存注意力机制):

含义：减少显存占用并加速推理。

建议：你的 5060 Ti 支持此特性，建议加上。

--temp (温度/随机性):

含义：数值越高回答越有创意，越低则越严谨（通常设在 0.7 到 0.8 之间）。

--repeat-penalty (重复惩罚):

含义：防止模型复读机。通常设为 1.1。

--mlock (内存锁定):

含义：强制系统将模型留在物理内存中，防止被交换到硬盘导致卡顿。你有 64GB 内存，开启这个会更稳。

💡 总结一份"最强配置"启动脚本

你可以把下面这段话存成一个 .bat 文件放在工具文件夹里：

代码段

@echo off

llama-cli.exe ^

-m "C:\YourPath\model.gguf" ^

-ngl 99 ^

-c 8192 ^

-t 12 ^

--flash-attn ^

--color ^

-i

pause

官方文档参考：由于 llama.cpp 更新极快，最权威的命令解释永远在你的本地：只需在终端输入 .\llama-cli.exe --help 即可查看当前版本支持的所有命令。

需要我帮你写一个自动连接到网页前端（如 Chatbox）的配置教程吗？