Gemini 说
既然你已经准备好了 RTX 5060 Ti 的硬件环境和正确的 llama.cpp 二进制文件,下面我为你总结一份核心使用教程。
llama.cpp 的命令行工具非常强大,最常用的主要是 llama-cli.exe(命令行对话)和 llama-server.exe(本地服务器模式)。
🛠️ llama-cli 核心命令详解
这是最基础的运行方式,直接在终端(CMD/PowerShell)中与模型对话。
-
基础运行模板
Bash
.\llama-cli.exe -m "D:\Models\Llama3-8B.gguf" -ngl 99 -p "你好,请自我介绍。"
-
核心参数清单
参数 全称 含义与建议
-m --model 必填。指定 .gguf 模型文件的路径。
-ngl --n-gpu-layers 关键(显卡加速)。将多少层模型卸载到 GPU。你的 5060 Ti 运行 7B/8B 模型建议设为 99(全显存运行)。
-c --ctx-size 上下文长度。模型能"记住"多长的对话。默认通常是 512,建议设为 4096 或更高(取决于显存大小)。
-t --threads 线程数。建议设为你 CPU 的性能核 (P-Core) 数量。对于 14700KF,建议设为 8 或 12。
-i --interactive 交互模式。模型说完后不会退出,你可以继续回话,像聊天一样。
--color --color 区分输出内容的颜色,让 AI 的回答和你的提问视觉上更易区分。
-n --n-predict 限制模型输出的最大字数。设为 -1 则不限制直到生成结束。
🌐 llama-server 常用命令(推荐)
如果你想通过浏览器使用,或者配合 Chatbox、Page Assist 等前端插件,请使用此模式。
-
启动命令
Bash
.\llama-server.exe -m "模型路径" -ngl 99 --port 8080
-
进阶参数
--host: 默认为 127.0.0.1。如果你想让局域网其他设备访问,可以设为 0.0.0.0。
--api-key: 为你的本地 API 设置密码,增加安全性。
--alias: 给模型起个别名,方便在 API 调用时识别。
🧠 高级调优命令(针对你的配置)
针对你的 14700KF + 5060 Ti,以下参数能进一步提升体验:
--flash-attn (闪存注意力机制):
含义: 减少显存占用并加速推理。
建议: 你的 5060 Ti 支持此特性,建议加上。
--temp (温度/随机性):
含义: 数值越高回答越有创意,越低则越严谨(通常设在 0.7 到 0.8 之间)。
--repeat-penalty (重复惩罚):
含义: 防止模型复读机。通常设为 1.1。
--mlock (内存锁定):
含义: 强制系统将模型留在物理内存中,防止被交换到硬盘导致卡顿。你有 64GB 内存,开启这个会更稳。
💡 总结一份"最强配置"启动脚本
你可以把下面这段话存成一个 .bat 文件放在工具文件夹里:
代码段
@echo off
llama-cli.exe ^
-m "C:\YourPath\model.gguf" ^
-ngl 99 ^
-c 8192 ^
-t 12 ^
--flash-attn ^
--color ^
-i
pause
官方文档参考: 由于 llama.cpp 更新极快,最权威的命令解释永远在你的本地:只需在终端输入 .\llama-cli.exe --help 即可查看当前版本支持的所有命令。
需要我帮你写一个自动连接到网页前端(如 Chatbox)的配置教程吗?