大模型之Ollama

Ollama公司简介

Ollama 是一家独立的美国初创公司(Ollama Inc.)开发的开源工具

创始人:Jeffrey Morgan 和 Michael Chiang

成立时间:2021 年

总部:美国加州帕洛阿尔托(Palo Alto, CA)

背景:创始人曾开发过 Docker 桌面端工具 Kitematic(后被 Docker 收购),因此 Ollama 被称为 "LLM 领域的 Docker"

融资:YC 2021 冬季批次项目,早期获得约 12.5 万美元 种子轮融资

核心产品:Ollama 命令行工具(本地大模型一键运行平台)

开源协议:MIT 开源协议,代码托管在 GitHub:https://github.com/ollama/ollama

定位:让普通用户 / 开发者在本地电脑一键运行 Llama、Qwen、Phi 等开源大模型,零配置、跨平台、轻量化

✅ 是一家专注本地 AI 部署的独立创业公司

Ollama 核心定位

Ollama = 本地大模型的 "一键运行工具"

无需复杂配置,一行命令就能在本地(Windows/Mac/Linux)运行 Llama 3、Phi 3、Qwen、Gemma 等主流大模型

轻量级、开源、跨平台,把大模型本地部署的门槛从 "专业工程师" 降到 "普通用户"

核心目标:让任何人都能零成本、零代码在本地跑大模型,支撑 Agent、聊天、代码生成等场景

Ollama 核心特性

特性 具体说明

一键装模型 ollama run llama3 直接下载 + 运行 Llama 3,不用手动下载权重、配置环境

跨平台 支持 Mac(包括 M1/M2/M3)、Windows、Linux,本地电脑 / 服务器都能跑

轻量化 自动优化显存,4GB 内存也能跑小模型,低配设备也能用

API 接口 内置 REST API,可对接 OpenClaw/Agent/ 自己的程序,轻松集成到之前关注的 Agent 系统

模型自定义 支持 Modelfile 定制模型(改参数、加提示词、合并 LoRA),能微调适配自己的需求

多模型并行 同时运行多个模型(比如 Llama 3 + Qwen),不同任务用不同模型&灵活切换

开源免费 核心代码开源,无商业限制

Ollama 基础使用

  1. 安装

    Mac/Linux:终端执行 curl -fsSL https://ollama.com/install.sh | sh

    Windows:官网下载安装包,双击下一步即可

    验证安装:ollama -v 显示版本号即成功

  2. 核心命令

bash 复制代码
# 1. 运行模型(自动下载+启动)
ollama run llama3  # 运行 Llama 3 7B
ollama run qwen:7b  # 运行通义千问 7B
ollama run phi3:mini  # 运行微软 Phi 3 迷你版(适合低配设备)

# 2. 查看本地已安装模型
ollama list

# 3. 停止模型
ollama stop llama3

# 4. 删除模型(释放空间)
ollama rm llama3

# 5. 查看模型详情
ollama show llama3

# 6. 启动 API 服务(默认端口 11434)
ollama serve  # 后台运行:nohup ollama serve &
  1. API 调用(对接 Agent / 程序)
    Ollama 内置 REST API,可直接用 HTTP 请求调用,示例(Python):
py 复制代码
import requests
import json

# 调用 Llama 3 聊天
def chat_with_ollama(prompt):
    url = "http://localhost:11434/api/chat"
    data = {
        "model": "llama3",
        "messages": [{"role": "user", "content": prompt}],
        "stream": False  # 非流式返回,直接拿结果
    }
    response = requests.post(url, json=data)
    return response.json()["message"]["content"]

# 测试
print(chat_with_ollama("解释一下 Agent 集群"))
  1. 自定义模型(Modelfile)
    创建 Modelfile 文件,定制模型(比如加系统提示、调整参数):
plaintext 复制代码
# Modelfile 示例:定制 Llama 3 为代码助手
FROM llama3

# 设置系统提示
SYSTEM "你是一个专业的代码助手,只输出简洁、可运行的代码,不做多余解释。"

# 调整参数
PARAMETER temperature 0.1  # 越低越稳定,适合代码生成
PARAMETER max_tokens 2048  # 最大输出长度

构建并运行自定义模型:

bash 复制代码
ollama create code-llama -f Modelfile  # 构建
ollama run code-llama  # 运行

Ollama 技术原理

权重管理:自动下载模型权重(默认从 Ollama 官方仓库),并优化存储(分块下载、增量更新)

推理优化:针对不同硬件(CPU/GPU/M1/M2)做指令集优化;支持模型量化(4bit/8bit),降低显存占用

封装层:把复杂的推理框架(llama.cpp、GGUF)封装成简单的命令行 / API,用户不用接触底层

Ollama 实战场景

  1. 对接 OpenClaw(本地 Agent + 本地模型)

    优势:数据全在本地,隐私可控,无 API 费用,无 429 限流;

    步骤:在 OpenClaw 配置文件中,把模型接口指向 Ollama 的 API(http://localhost:11434)即可

  2. 解决 OpenClaw 整点流量暴增

    用 Ollama 本地模型替代云端 API,避免大量实例同时调用云端接口;

    结合缓存前缀匹配,让 Agent 优先查缓存,再调用本地模型,进一步降低压力

  3. 本地开发 Agent 原型

    不用申请云端 API Key,直接用 Ollama 快速测试 Agent 的任务拆解、工具调用逻辑

    低成本验证想法,再迁移到云端模型

  4. 低配置设备部署

    对树莓派、老旧电脑,用 Ollama 运行轻量化模型(比如 Phi 3 mini、Llama 3 8B 量化版)

    实现 "低配设备 + 本地 Agent + 本地模型" 的全离线方案

避坑点

模型下载慢:可配置国内镜像源(比如阿里云、腾讯云镜像),或手动下载权重后导入

显存不足:运行大模型(比如 Llama 3 70B)前,先量化(ollama run llama3:70b-q4_0),4bit 量化能减少 75% 显存占用

API 端口暴露:默认只监听本地(127.0.0.1),若要局域网访问,需修改配置(OLLAMA_HOST=0.0.0.0 ollama serve),注意安全

模型兼容性:部分小众模型可能不支持,优先选 Ollama 官方列表里的模型(ollama list models 查看)

总结

Ollama 核心是本地大模型的一键运行工具,零配置、跨平台、开源免费,大幅降低本地部署门槛

核心用法:通过命令行运行模型,通过 API 对接 Agent / 程序,通过 Modelfile 自定义模型

最佳实践:结合 OpenClaw 等 Agent 工具,搭建 "本地模型 + 本地 Agent" 的全离线、隐私可控的智能系统,还能缓解整点流量暴增问题

相关推荐
沐泽__2 小时前
精确率(Precision)、召回率(Recall) 超详细图解
ai
x-cmd5 小时前
[x-cmd] Firefox 148 发布 AI 开关,支持一键禁用 AI 功能
人工智能·ai·firefox·agent·x-cmd
Python大数据分析@5 小时前
MiniMax M2.5模型正式上线,是否真正实现“生产力SOTA ”与“低负担”,如何评价其表现?
ai
2501_948114246 小时前
OpenClaw 架构进阶:无缝接入星链4SAPI 替代官方网关的完整工程指南
ai·架构
钰珠AIOT6 小时前
本地部署 OpenClaw + DeepSeek-R1 完全指南
ai
lynn-fish7 小时前
标讯 “加速度”:AI 如何重构电力招投标的决策与效率
人工智能·ai·电网·电力·招投标·标讯
鹓于7 小时前
OpenClaw:让AI直接操控你的电脑
ai
發糞塗牆7 小时前
【Azure 架构师学习笔记 】- Azure AI(8)-Azure AI Foundry
人工智能·ai·azure