llama-cli 核心命令详解

Gemini 说

既然你已经准备好了 RTX 5060 Ti 的硬件环境和正确的 llama.cpp 二进制文件,下面我为你总结一份核心使用教程。

llama.cpp 的命令行工具非常强大,最常用的主要是 llama-cli.exe(命令行对话)和 llama-server.exe(本地服务器模式)。

🛠️ llama-cli 核心命令详解

这是最基础的运行方式,直接在终端(CMD/PowerShell)中与模型对话。

  1. 基础运行模板

    Bash

    .\llama-cli.exe -m "D:\Models\Llama3-8B.gguf" -ngl 99 -p "你好,请自我介绍。"

  2. 核心参数清单

    参数 全称 含义与建议

    -m --model 必填。指定 .gguf 模型文件的路径。

    -ngl --n-gpu-layers 关键(显卡加速)。将多少层模型卸载到 GPU。你的 5060 Ti 运行 7B/8B 模型建议设为 99(全显存运行)。

    -c --ctx-size 上下文长度。模型能"记住"多长的对话。默认通常是 512,建议设为 4096 或更高(取决于显存大小)。

    -t --threads 线程数。建议设为你 CPU 的性能核 (P-Core) 数量。对于 14700KF,建议设为 8 或 12。

    -i --interactive 交互模式。模型说完后不会退出,你可以继续回话,像聊天一样。

    --color --color 区分输出内容的颜色,让 AI 的回答和你的提问视觉上更易区分。

    -n --n-predict 限制模型输出的最大字数。设为 -1 则不限制直到生成结束。

    🌐 llama-server 常用命令(推荐)

    如果你想通过浏览器使用,或者配合 Chatbox、Page Assist 等前端插件,请使用此模式。

  3. 启动命令

    Bash

    .\llama-server.exe -m "模型路径" -ngl 99 --port 8080

  4. 进阶参数

    --host: 默认为 127.0.0.1。如果你想让局域网其他设备访问,可以设为 0.0.0.0。

--api-key: 为你的本地 API 设置密码,增加安全性。

--alias: 给模型起个别名,方便在 API 调用时识别。

🧠 高级调优命令(针对你的配置)

针对你的 14700KF + 5060 Ti,以下参数能进一步提升体验:

--flash-attn (闪存注意力机制):

含义: 减少显存占用并加速推理。

建议: 你的 5060 Ti 支持此特性,建议加上。

--temp (温度/随机性):

含义: 数值越高回答越有创意,越低则越严谨(通常设在 0.7 到 0.8 之间)。

--repeat-penalty (重复惩罚):

含义: 防止模型复读机。通常设为 1.1。

--mlock (内存锁定):

含义: 强制系统将模型留在物理内存中,防止被交换到硬盘导致卡顿。你有 64GB 内存,开启这个会更稳。

💡 总结一份"最强配置"启动脚本

你可以把下面这段话存成一个 .bat 文件放在工具文件夹里:

代码段

@echo off

llama-cli.exe ^

-m "C:\YourPath\model.gguf" ^

-ngl 99 ^

-c 8192 ^

-t 12 ^

--flash-attn ^

--color ^

-i

pause

官方文档参考: 由于 llama.cpp 更新极快,最权威的命令解释永远在你的本地:只需在终端输入 .\llama-cli.exe --help 即可查看当前版本支持的所有命令。

需要我帮你写一个自动连接到网页前端(如 Chatbox)的配置教程吗?

相关推荐
Thomas.Sir5 小时前
Qwen2:阿里开源大模型理论剖析以及本地部署实战
开源·llama·qwen2·ai 大模型
l1t15 小时前
在Android设备上利用Termux安装llama.cpp并启动webui
android·llama
DigitalOcean8 天前
DigitalOcean Gradient AI 推理云平台原生集成 LlamaIndex
llama
ECHO飞跃 01214 天前
Unity2019 本地推理 通义千问0.5-1.5B微调导入
人工智能·深度学习·unity·llama
黑白极客14 天前
ACP大模型认证刷题工具开源,助力高效备考
java·ai·github·llama·认证
迷之程序员14 天前
llama-cpp-python用法,模型加载gpu踩坑全记录
开发语言·python·llama
~kiss~15 天前
Ollama 底层的 llama.cpp 和 GGUF
llama
小雨中_16 天前
4.1 Megatron-LM:千卡级集群预训练的“硬核”框架
人工智能·python·深度学习·机器学习·llama
重生之我要成为代码大佬17 天前
AI框架设计与选型
人工智能·langchain·大模型·llama·qwen