【大模型系列】llama.cpp本地运行大模型

万物皆字节2025-03-17 6:01

上一篇链接: 【大模型系列】使用ollama本地运行千问2.5模型我们讲了ollama本地运行大模型，这里我们介绍另一种本地运行大模型的方法：llamacpp

下载cpu版本的llamacpp；建议下载3982版本的，新版本我试了在win上运行不了

下载后是一个压缩包，解压后配置Path

把解压后的路径加入到path中

任意新开命令行，输入指令：

cpp 复制代码

llama-cli -v

出现以下内容表示安装成功

到模型所在目录，执行以下命令即可；下载模型可见我另一篇：链接: 【大模型系列】入门常识备忘，这里我们下载的gguf格式的模型

cpp 复制代码

llama-server -m qwen2.5-7b-instruct-q5_0.gguf --port 8088 -c 2048

port 是服务的端口

c 是context的意思，即最大能处理多少个token

启动后就可以通过浏览器 http://localhost:8088 访问服务了

调试开始

over~~