【端侧AI 与 C++】1. llama.cpp源码编译与本地运行

本人 Mac 环境，其它环境可参考

文章目录

[0. 环境准备](#0. 环境准备)
- [0.1 安装 Homebrew（如果还没装）](#0.1 安装 Homebrew（如果还没装）)
- [0.2 安装编译工具](#0.2 安装编译工具)
- [0.3 安装 Python（可选）](#0.3 安装 Python（可选）)
[1. llama.cpp的编译与运行](#1. llama.cpp的编译与运行)
- [1.1 克隆 llama.cpp](#1.1 克隆 llama.cpp)
- [1.2 构建 llama.cpp](#1.2 构建 llama.cpp)
- [1.3 运行 Demo](#1.3 运行 Demo)
- [1.4 下载另一个模型，开启对话](#1.4 下载另一个模型，开启对话)

0. 环境准备

0.1 安装 Homebrew（如果还没装）

在终端执行：

bash 复制代码

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

验证：

bash 复制代码

brew --version

0.2 安装编译工具

bash 复制代码

brew install cmake ninja git
brew install llvm   # 最新 clang

macOS 默认 clang 也可以，但 Homebrew llvm 更现代，方便优化。

验证：

bash 复制代码

clang --version
cmake --version
ninja --version

0.3 安装 Python（可选）

Python 用于下载模型或做简单验证：

bash 复制代码

brew install python
python3 --version

1. llama.cpp的编译与运行

1.1 克隆 llama.cpp

在你喜欢的工作目录：

bash 复制代码

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

1.2 构建 llama.cpp

使用 Ninja 构建：

bash 复制代码

mkdir build
cd build
cmake .. -GNinja -DCMAKE_BUILD_TYPE=Release
ninja

如果成功，你会在 build/bin 看到可执行文件：

bash 复制代码

ls build/bin

1.3 运行 Demo

回到 build/bin：

bash 复制代码

cd ../build/bin

./llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

不出意外的话，你就可以像下图一样跟模型对话了。

1.4 下载另一个模型，开启对话

（1）先安装 wget，用来下载模型：

bash 复制代码

brew install wget

（2）下载一个小模型：

bash 复制代码

mkdir models

wget https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct-GGUF/resolve/main/qwen2.5-0.5b-instruct-q4_k_m.gguf\?download\=true -O qwen2.5-0.5b-instruct-q4_k_m.gguf

（3）本地运行

先回到 build/bin 目录：

bash 复制代码

./llama-cli -m ../../models/qwen2.5-0.5b-instruct-q4_k_m.gguf -p "你好，做一下自我介绍" -n 64

ok，运行成功！

执行命令中的参数含义：

-m 模型路径，指向你下载的模型，一般是 gguf 文件（量化版本）

-p prompt

-n 生成 token 数量

至此，我们完成了 llama.cpp 的本地编译和运行，算是完成了一个 hello world 程序了。

下一篇文章，我们不用命令行运行了，自己写一个main.cpp文件，用代码调用 llama.cpp 来使用大模型！