大模型之Ollama

Ollama公司简介

Ollama 是一家独立的美国初创公司（Ollama Inc.）开发的开源工具

创始人：Jeffrey Morgan 和 Michael Chiang

成立时间：2021 年

总部：美国加州帕洛阿尔托（Palo Alto, CA）

背景：创始人曾开发过 Docker 桌面端工具 Kitematic（后被 Docker 收购），因此 Ollama 被称为 "LLM 领域的 Docker"

融资：YC 2021 冬季批次项目，早期获得约 12.5 万美元种子轮融资

核心产品：Ollama 命令行工具（本地大模型一键运行平台）

开源协议：MIT 开源协议，代码托管在 GitHub：https://github.com/ollama/ollama

定位：让普通用户 / 开发者在本地电脑一键运行 Llama、Qwen、Phi 等开源大模型，零配置、跨平台、轻量化

✅ 是一家专注本地 AI 部署的独立创业公司

Ollama 核心定位

Ollama = 本地大模型的 "一键运行工具"

无需复杂配置，一行命令就能在本地（Windows/Mac/Linux）运行 Llama 3、Phi 3、Qwen、Gemma 等主流大模型

轻量级、开源、跨平台，把大模型本地部署的门槛从 "专业工程师" 降到 "普通用户"

核心目标：让任何人都能零成本、零代码在本地跑大模型，支撑 Agent、聊天、代码生成等场景

Ollama 核心特性

特性具体说明

一键装模型 ollama run llama3 直接下载 + 运行 Llama 3，不用手动下载权重、配置环境

跨平台支持 Mac（包括 M1/M2/M3）、Windows、Linux，本地电脑 / 服务器都能跑

轻量化自动优化显存，4GB 内存也能跑小模型，低配设备也能用

API 接口内置 REST API，可对接 OpenClaw/Agent/ 自己的程序，轻松集成到之前关注的 Agent 系统

模型自定义支持 Modelfile 定制模型（改参数、加提示词、合并 LoRA），能微调适配自己的需求

多模型并行同时运行多个模型（比如 Llama 3 + Qwen），不同任务用不同模型&灵活切换

开源免费核心代码开源，无商业限制

Ollama 基础使用

安装

Mac/Linux：终端执行 curl -fsSL https://ollama.com/install.sh | sh

Windows：官网下载安装包，双击下一步即可

验证安装：ollama -v 显示版本号即成功
核心命令

bash 复制代码

# 1. 运行模型（自动下载+启动）
ollama run llama3  # 运行 Llama 3 7B
ollama run qwen:7b  # 运行通义千问 7B
ollama run phi3:mini  # 运行微软 Phi 3 迷你版（适合低配设备）

# 2. 查看本地已安装模型
ollama list

# 3. 停止模型
ollama stop llama3

# 4. 删除模型（释放空间）
ollama rm llama3

# 5. 查看模型详情
ollama show llama3

# 6. 启动 API 服务（默认端口 11434）
ollama serve  # 后台运行：nohup ollama serve &

API 调用（对接 Agent / 程序）
Ollama 内置 REST API，可直接用 HTTP 请求调用，示例（Python）：

py 复制代码

import requests
import json

# 调用 Llama 3 聊天
def chat_with_ollama(prompt):
    url = "http://localhost:11434/api/chat"
    data = {
        "model": "llama3",
        "messages": [{"role": "user", "content": prompt}],
        "stream": False  # 非流式返回，直接拿结果
    }
    response = requests.post(url, json=data)
    return response.json()["message"]["content"]

# 测试
print(chat_with_ollama("解释一下 Agent 集群"))

自定义模型（Modelfile）
创建 Modelfile 文件，定制模型（比如加系统提示、调整参数）：

plaintext 复制代码

# Modelfile 示例：定制 Llama 3 为代码助手
FROM llama3

# 设置系统提示
SYSTEM "你是一个专业的代码助手，只输出简洁、可运行的代码，不做多余解释。"

# 调整参数
PARAMETER temperature 0.1  # 越低越稳定，适合代码生成
PARAMETER max_tokens 2048  # 最大输出长度

构建并运行自定义模型：

bash 复制代码

ollama create code-llama -f Modelfile  # 构建
ollama run code-llama  # 运行

Ollama 技术原理

权重管理：自动下载模型权重（默认从 Ollama 官方仓库），并优化存储（分块下载、增量更新）

推理优化：针对不同硬件（CPU/GPU/M1/M2）做指令集优化；支持模型量化（4bit/8bit），降低显存占用

封装层：把复杂的推理框架（llama.cpp、GGUF）封装成简单的命令行 / API，用户不用接触底层

Ollama 实战场景

对接 OpenClaw（本地 Agent + 本地模型）

优势：数据全在本地，隐私可控，无 API 费用，无 429 限流；

步骤：在 OpenClaw 配置文件中，把模型接口指向 Ollama 的 API（http://localhost:11434）即可
解决 OpenClaw 整点流量暴增

用 Ollama 本地模型替代云端 API，避免大量实例同时调用云端接口；

结合缓存前缀匹配，让 Agent 优先查缓存，再调用本地模型，进一步降低压力
本地开发 Agent 原型

不用申请云端 API Key，直接用 Ollama 快速测试 Agent 的任务拆解、工具调用逻辑

低成本验证想法，再迁移到云端模型
低配置设备部署

对树莓派、老旧电脑，用 Ollama 运行轻量化模型（比如 Phi 3 mini、Llama 3 8B 量化版）

实现 "低配设备 + 本地 Agent + 本地模型" 的全离线方案

避坑点

模型下载慢：可配置国内镜像源（比如阿里云、腾讯云镜像），或手动下载权重后导入

显存不足：运行大模型（比如 Llama 3 70B）前，先量化（ollama run llama3:70b-q4_0），4bit 量化能减少 75% 显存占用

API 端口暴露：默认只监听本地（127.0.0.1），若要局域网访问，需修改配置（OLLAMA_HOST=0.0.0.0 ollama serve），注意安全

模型兼容性：部分小众模型可能不支持，优先选 Ollama 官方列表里的模型（ollama list models 查看）

总结

Ollama 核心是本地大模型的一键运行工具，零配置、跨平台、开源免费，大幅降低本地部署门槛

核心用法：通过命令行运行模型，通过 API 对接 Agent / 程序，通过 Modelfile 自定义模型

最佳实践：结合 OpenClaw 等 Agent 工具，搭建 "本地模型 + 本地 Agent" 的全离线、隐私可控的智能系统，还能缓解整点流量暴增问题