llama.cpp：用 CC++ 让大模型在本地跑起来

llama.cpp：用 C/C++ 让大模型在本地跑起来

llama.cpp 是目前本地运行大语言模型最流行的开源项目，Star 数超过 11 万：

这个项目的核心思路很简单：用纯 C/C++ 实现 LLM 推理，不依赖 Python、不依赖 PyTorch，把大模型的运行门槛压到最低。你的笔记本、台式机、甚至手机都能跑。

它能干什么

llama.cpp 支持在本地硬件上直接运行各种主流开源大模型，包括 LLaMA 系列、Mistral、Qwen、DeepSeek、Gemma、Phi 等数十种模型。它还支持多模态模型，比如 LLaVA、Qwen2-VL 等，可以处理图片加文本的输入。

项目提供了两个核心工具：

llama-cli 是命令行交互工具，支持对话模式。启动后直接在终端里和模型聊天，也可以用自定义语法约束输出格式，比如让模型只输出合法的 JSON。

llama-server 是一个轻量 HTTP 服务器，提供兼容 OpenAI 格式的 API 接口。启动后在浏览器打开 localhost:8080 就能用自带的 WebUI，同时支持多用户并发请求和投机解码加速。

硬件支持

这是 llama.cpp 最大的优势。它针对不同硬件做了专门优化：

无论你用的是什么硬件组合，基本都能找到合适的后端。

量化支持

大模型动辄几十 G 的参数量，普通电脑跑不起。llama.cpp 支持从 1.5-bit 到 8-bit 的多种整数量化方案，把模型压缩到几 GB 甚至几百 MB。比如一个 7B 参数的模型量化到 4-bit 后只有 4GB 左右，普通笔记本的内存就能装下。

项目和 Hugging Face 深度集成，下载和运行模型只需要一行命令：

复制代码

llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

它会自动从 Hugging Face 下载 GGUF 格式的模型文件并启动对话。

生态

llama.cpp 的生态已经非常成熟。主流的本地 AI 工具基本都在底层依赖它：Ollama、LMStudio、Jan、gpt4all、KoboldCpp 等桌面应用，底层推理引擎都是 llama.cpp。

编程语言绑定也很齐全，Python、Go、Rust、Java、C#、Swift、Node.js、Flutter 等都有对应的封装库。如果你是开发者，很容易在自己的应用里集成 llama.cpp 的推理能力。

基础设施方面，有 GPUStack 用于管理 GPU 集群、llama-swap 做透明代理和模型热切换、llmaz 提供 Kubernetes 上的推理部署方案。

快速上手

安装方式很多，挑一种就行：

以 Docker 为例：

bash 复制代码

docker run -p 8080:8080 --gpus=all ghcr.io/ggml-org/llama.cpp:server-cuda -hf ggml-org/gemma-3-1b-it-GGUF

启动后浏览器访问 localhost:8080 即可使用。

项目还附带了性能测试工具 llama-bench，可以跑 benchmark 查看模型在你硬件上的实际推理速度。perplexity 工具则用来评估模型生成质量。

总结

llama.cpp 解决了本地跑大模型的核心问题：跨平台、低依赖、高性能。它让大模型不再局限于云端服务器，普通用户的日常设备就能用。11 万 Star 的背后，是一个正在快速壮大的本地 AI 生态。

题：跨平台、低依赖、高性能。它让大模型不再局限于云端服务器，普通用户的日常设备就能用。11 万 Star 的背后，是一个正在快速壮大的本地 AI 生态。