llama-cli 核心命令详解

Gemini 说

既然你已经准备好了 RTX 5060 Ti 的硬件环境和正确的 llama.cpp 二进制文件,下面我为你总结一份核心使用教程。

llama.cpp 的命令行工具非常强大,最常用的主要是 llama-cli.exe(命令行对话)和 llama-server.exe(本地服务器模式)。

🛠️ llama-cli 核心命令详解

这是最基础的运行方式,直接在终端(CMD/PowerShell)中与模型对话。

  1. 基础运行模板

    Bash

    .\llama-cli.exe -m "D:\Models\Llama3-8B.gguf" -ngl 99 -p "你好,请自我介绍。"

  2. 核心参数清单

    参数 全称 含义与建议

    -m --model 必填。指定 .gguf 模型文件的路径。

    -ngl --n-gpu-layers 关键(显卡加速)。将多少层模型卸载到 GPU。你的 5060 Ti 运行 7B/8B 模型建议设为 99(全显存运行)。

    -c --ctx-size 上下文长度。模型能"记住"多长的对话。默认通常是 512,建议设为 4096 或更高(取决于显存大小)。

    -t --threads 线程数。建议设为你 CPU 的性能核 (P-Core) 数量。对于 14700KF,建议设为 8 或 12。

    -i --interactive 交互模式。模型说完后不会退出,你可以继续回话,像聊天一样。

    --color --color 区分输出内容的颜色,让 AI 的回答和你的提问视觉上更易区分。

    -n --n-predict 限制模型输出的最大字数。设为 -1 则不限制直到生成结束。

    🌐 llama-server 常用命令(推荐)

    如果你想通过浏览器使用,或者配合 Chatbox、Page Assist 等前端插件,请使用此模式。

  3. 启动命令

    Bash

    .\llama-server.exe -m "模型路径" -ngl 99 --port 8080

  4. 进阶参数

    --host: 默认为 127.0.0.1。如果你想让局域网其他设备访问,可以设为 0.0.0.0。

--api-key: 为你的本地 API 设置密码,增加安全性。

--alias: 给模型起个别名,方便在 API 调用时识别。

🧠 高级调优命令(针对你的配置)

针对你的 14700KF + 5060 Ti,以下参数能进一步提升体验:

--flash-attn (闪存注意力机制):

含义: 减少显存占用并加速推理。

建议: 你的 5060 Ti 支持此特性,建议加上。

--temp (温度/随机性):

含义: 数值越高回答越有创意,越低则越严谨(通常设在 0.7 到 0.8 之间)。

--repeat-penalty (重复惩罚):

含义: 防止模型复读机。通常设为 1.1。

--mlock (内存锁定):

含义: 强制系统将模型留在物理内存中,防止被交换到硬盘导致卡顿。你有 64GB 内存,开启这个会更稳。

💡 总结一份"最强配置"启动脚本

你可以把下面这段话存成一个 .bat 文件放在工具文件夹里:

代码段

@echo off

llama-cli.exe ^

-m "C:\YourPath\model.gguf" ^

-ngl 99 ^

-c 8192 ^

-t 12 ^

--flash-attn ^

--color ^

-i

pause

官方文档参考: 由于 llama.cpp 更新极快,最权威的命令解释永远在你的本地:只需在终端输入 .\llama-cli.exe --help 即可查看当前版本支持的所有命令。

需要我帮你写一个自动连接到网页前端(如 Chatbox)的配置教程吗?

相关推荐
爱打代码的小林18 小时前
LLaMA Factory使用
人工智能·大模型·llama
薛不痒19 小时前
Llamafactory的使用(1)
人工智能·python·llama
yumgpkpm19 小时前
华为昇腾910B(Ascend 910B)+ LLaMA-Factory 对 Qwen3.5-32B 模型进行 LoRA 微调 的全流程操作指南
开源·prompt·copilot·embedding·llama·gpu算力·gitcode
竹之却3 天前
【OpenClaw】云服务器端 openclaw 集成本地 Windows端 ollama 模型
windows·llama·ollama·openclaw·qwen3.5
王小义笔记3 天前
模型微调使用LLaMA-Factory教程
语言模型·llama
CHPCWWHSU3 天前
模型加载与初始化(3)
llm·llama·cpp·cudatoolkit
bulingg3 天前
大模型——LLAMA框架介绍(含手撕)
llama
love530love3 天前
冷门干货!llama.cpp 自带原生网页聊天 UI,无需第三方依赖一键开启
人工智能·windows·ui·llama·flash-attention·switch-cuda
HyperAI超神经4 天前
数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等
人工智能·深度学习·机器学习·数据集·ai编程·llama·图像合成
黑蛋同志5 天前
Ubuntu安装llama.cpp
linux·ubuntu·llama