Ollama 使用详解：本地部署大语言模型的指南

随着大语言模型（LLM）在各类应用中的广泛落地，开发者对模型的可控性、数据隐私和成本控制提出了更高的要求。相比依赖云端服务，本地部署大模型 成为越来越多技术团队的选择。而在众多本地部署工具中，Ollama 凭借其极简的使用方式和强大的兼容性，迅速成为开发者圈的热门工具。

本文将从 Ollama 的基本概念、安装部署、模型管理、API 调用、与其他框架对比等方面，全面介绍如何使用 Ollama 构建属于自己的本地 AI 助手。

一、什么是 Ollama？

Ollama 是一个开源的大语言模型运行框架，专为在本地机器上便捷部署和运行 LLM 而设计。它的核心理念是：像 Docker 一样简化大模型的使用流程，让开发者无需关心底层推理框架、模型格式、驱动兼容等复杂细节，只需一条命令即可启动模型。

Ollama 支持 macOS、Windows、Linux 三大平台，并提供 Docker 镜像，适合各种开发环境。它内置了模型量化机制，显著降低显存需求，使得在普通家用电脑上运行 7B 甚至 13B 模型成为可能。

二、为什么选择 Ollama？

相比传统的模型部署方式（如使用 Hugging Face Transformers + PyTorch），Ollama 的优势主要体现在以下几个方面：

极简命令行操作 ：一条 ollama run llama2 命令即可启动模型。
自动下载与配置：无需手动下载模型文件或配置推理环境。
支持多种模型格式：包括 GGUF、Safetensors、PyTorch 等。
REST API 接口：可集成到 Python、JavaScript 等业务系统中。
本地运行保障隐私：数据不出本地，适合企业内网部署。

三、安装 Ollama

1. 系统要求

内存：建议至少 16GB，运行 7B 模型更推荐 32GB。
显卡：支持 NVIDIA GPU（CUDA）、AMD GPU（ROCm）、Apple M 系列芯片。
硬盘空间：每个模型约 3GB~40GB，建议预留 50GB 以上空间。

2. 安装方式

Windows/macOS

访问官网 https://ollama.com，下载对应平台的安装包，双击安装即可。

Linux

复制代码

curl -fsSL https://ollama.com/install.sh | sh

Docker

复制代码

docker run -d -p 11434:11434 --name ollama ollama/ollama

四、模型管理与运行

1. 查看支持的模型

复制代码

ollama list

Ollama 支持的主流模型包括：

Meta 的 Llama 2 / Llama 3
阿里巴巴的 Qwen 系列
Google 的 Gemma 系列
Microsoft 的 Phi 系列
Mistral、DeepSeek、CodeLlama 等

2. 下载并运行模型

复制代码

ollama run llama3

首次运行会自动下载模型文件，之后即可直接对话。

3. 自定义模型

创建一个 Modelfile：

复制代码

FROM llama2
PARAMETER temperature 0.7
SYSTEM """你是一个中文助手，请用简洁的语言回答问题。"""

然后运行：

复制代码

ollama create mymodel -f Modelfile
ollama run mymodel

五、Web UI 与 API 接口

1. 启动 Web UI

复制代码

ollama serve --public

访问 http://localhost:11434 即可使用图形界面。

2. REST API 示例

生成文本：

复制代码

curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "介绍一下量子计算"
}'

对话模式：

复制代码

curl http://localhost:11434/api/chat -d '{
"model": "mistral",
"messages": [
{"role": "user", "content": "什么是人工智能？"}
]
}'

3. Python 调用示例

复制代码

import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "llama3",
"prompt": "用简单的语言解释什么是区块链"
}
response = requests.post(url, json=data)
print(response.json()["response"])

六、与其他推理框架对比

框架	部署方式	优势	劣势
Ollama	本地/容器	简单易用，支持多模型，API友好	模型微调支持较弱
LM Studio	本地桌面应用	图形界面友好，支持 GGUF 模型	不适合服务端部署
HuggingFace + Transformers	云端/本地	灵活强大，支持微调和训练	配置复杂，资源消耗大
LocalAI	本地服务	支持 OpenAI API 接口兼容	社区活跃度略低

Ollama 更适合快速部署和轻量级应用场景，尤其在企业内网、隐私保护、边缘计算等方面具有明显优势。

七、进阶技巧与优化建议

修改模型存储路径
使用 GPU 加速
量化模型以节省显存
多模型并发运行
结合 Chatbox 或 CherryStudio 使用 GUI

八、总结

Ollama 是一个极具潜力的本地大模型运行框架，它以极简的方式降低了 LLM 的使用门槛，让开发者可以专注于模型应用而非部署细节。无论你是 AI 初学者，还是企业级开发者，Ollama 都能为你提供一个稳定、高效、安全的大模型运行环境。

随着模型库的不断扩展和社区的活跃发展，Ollama 有望成为本地 AI 应用的标准工具之一。