Ollama公司简介
Ollama 是一家独立的美国初创公司(Ollama Inc.)开发的开源工具
创始人:Jeffrey Morgan 和 Michael Chiang
成立时间:2021 年
总部:美国加州帕洛阿尔托(Palo Alto, CA)
背景:创始人曾开发过 Docker 桌面端工具 Kitematic(后被 Docker 收购),因此 Ollama 被称为 "LLM 领域的 Docker"
融资:YC 2021 冬季批次项目,早期获得约 12.5 万美元 种子轮融资
核心产品:Ollama 命令行工具(本地大模型一键运行平台)
开源协议:MIT 开源协议,代码托管在 GitHub:https://github.com/ollama/ollama
定位:让普通用户 / 开发者在本地电脑一键运行 Llama、Qwen、Phi 等开源大模型,零配置、跨平台、轻量化
✅ 是一家专注本地 AI 部署的独立创业公司
Ollama 核心定位
Ollama = 本地大模型的 "一键运行工具"
无需复杂配置,一行命令就能在本地(Windows/Mac/Linux)运行 Llama 3、Phi 3、Qwen、Gemma 等主流大模型
轻量级、开源、跨平台,把大模型本地部署的门槛从 "专业工程师" 降到 "普通用户"
核心目标:让任何人都能零成本、零代码在本地跑大模型,支撑 Agent、聊天、代码生成等场景
Ollama 核心特性
特性 具体说明
一键装模型 ollama run llama3 直接下载 + 运行 Llama 3,不用手动下载权重、配置环境
跨平台 支持 Mac(包括 M1/M2/M3)、Windows、Linux,本地电脑 / 服务器都能跑
轻量化 自动优化显存,4GB 内存也能跑小模型,低配设备也能用
API 接口 内置 REST API,可对接 OpenClaw/Agent/ 自己的程序,轻松集成到之前关注的 Agent 系统
模型自定义 支持 Modelfile 定制模型(改参数、加提示词、合并 LoRA),能微调适配自己的需求
多模型并行 同时运行多个模型(比如 Llama 3 + Qwen),不同任务用不同模型&灵活切换
开源免费 核心代码开源,无商业限制
Ollama 基础使用
-
安装
Mac/Linux:终端执行 curl -fsSL https://ollama.com/install.sh | sh
Windows:官网下载安装包,双击下一步即可
验证安装:ollama -v 显示版本号即成功
-
核心命令
bash
# 1. 运行模型(自动下载+启动)
ollama run llama3 # 运行 Llama 3 7B
ollama run qwen:7b # 运行通义千问 7B
ollama run phi3:mini # 运行微软 Phi 3 迷你版(适合低配设备)
# 2. 查看本地已安装模型
ollama list
# 3. 停止模型
ollama stop llama3
# 4. 删除模型(释放空间)
ollama rm llama3
# 5. 查看模型详情
ollama show llama3
# 6. 启动 API 服务(默认端口 11434)
ollama serve # 后台运行:nohup ollama serve &
- API 调用(对接 Agent / 程序)
Ollama 内置 REST API,可直接用 HTTP 请求调用,示例(Python):
py
import requests
import json
# 调用 Llama 3 聊天
def chat_with_ollama(prompt):
url = "http://localhost:11434/api/chat"
data = {
"model": "llama3",
"messages": [{"role": "user", "content": prompt}],
"stream": False # 非流式返回,直接拿结果
}
response = requests.post(url, json=data)
return response.json()["message"]["content"]
# 测试
print(chat_with_ollama("解释一下 Agent 集群"))
- 自定义模型(Modelfile)
创建 Modelfile 文件,定制模型(比如加系统提示、调整参数):
plaintext
# Modelfile 示例:定制 Llama 3 为代码助手
FROM llama3
# 设置系统提示
SYSTEM "你是一个专业的代码助手,只输出简洁、可运行的代码,不做多余解释。"
# 调整参数
PARAMETER temperature 0.1 # 越低越稳定,适合代码生成
PARAMETER max_tokens 2048 # 最大输出长度
构建并运行自定义模型:
bash
ollama create code-llama -f Modelfile # 构建
ollama run code-llama # 运行
Ollama 技术原理
权重管理:自动下载模型权重(默认从 Ollama 官方仓库),并优化存储(分块下载、增量更新)
推理优化:针对不同硬件(CPU/GPU/M1/M2)做指令集优化;支持模型量化(4bit/8bit),降低显存占用
封装层:把复杂的推理框架(llama.cpp、GGUF)封装成简单的命令行 / API,用户不用接触底层
Ollama 实战场景
-
对接 OpenClaw(本地 Agent + 本地模型)
优势:数据全在本地,隐私可控,无 API 费用,无 429 限流;
步骤:在 OpenClaw 配置文件中,把模型接口指向 Ollama 的 API(http://localhost:11434)即可
-
解决 OpenClaw 整点流量暴增
用 Ollama 本地模型替代云端 API,避免大量实例同时调用云端接口;
结合缓存前缀匹配,让 Agent 优先查缓存,再调用本地模型,进一步降低压力
-
本地开发 Agent 原型
不用申请云端 API Key,直接用 Ollama 快速测试 Agent 的任务拆解、工具调用逻辑
低成本验证想法,再迁移到云端模型
-
低配置设备部署
对树莓派、老旧电脑,用 Ollama 运行轻量化模型(比如 Phi 3 mini、Llama 3 8B 量化版)
实现 "低配设备 + 本地 Agent + 本地模型" 的全离线方案
避坑点
模型下载慢:可配置国内镜像源(比如阿里云、腾讯云镜像),或手动下载权重后导入
显存不足:运行大模型(比如 Llama 3 70B)前,先量化(ollama run llama3:70b-q4_0),4bit 量化能减少 75% 显存占用
API 端口暴露:默认只监听本地(127.0.0.1),若要局域网访问,需修改配置(OLLAMA_HOST=0.0.0.0 ollama serve),注意安全
模型兼容性:部分小众模型可能不支持,优先选 Ollama 官方列表里的模型(ollama list models 查看)
总结
Ollama 核心是本地大模型的一键运行工具,零配置、跨平台、开源免费,大幅降低本地部署门槛
核心用法:通过命令行运行模型,通过 API 对接 Agent / 程序,通过 Modelfile 自定义模型
最佳实践:结合 OpenClaw 等 Agent 工具,搭建 "本地模型 + 本地 Agent" 的全离线、隐私可控的智能系统,还能缓解整点流量暴增问题