大模型之Ollama

Ollama公司简介

Ollama 是一家独立的美国初创公司(Ollama Inc.)开发的开源工具

创始人:Jeffrey Morgan 和 Michael Chiang

成立时间:2021 年

总部:美国加州帕洛阿尔托(Palo Alto, CA)

背景:创始人曾开发过 Docker 桌面端工具 Kitematic(后被 Docker 收购),因此 Ollama 被称为 "LLM 领域的 Docker"

融资:YC 2021 冬季批次项目,早期获得约 12.5 万美元 种子轮融资

核心产品:Ollama 命令行工具(本地大模型一键运行平台)

开源协议:MIT 开源协议,代码托管在 GitHub:https://github.com/ollama/ollama

定位:让普通用户 / 开发者在本地电脑一键运行 Llama、Qwen、Phi 等开源大模型,零配置、跨平台、轻量化

✅ 是一家专注本地 AI 部署的独立创业公司

Ollama 核心定位

Ollama = 本地大模型的 "一键运行工具"

无需复杂配置,一行命令就能在本地(Windows/Mac/Linux)运行 Llama 3、Phi 3、Qwen、Gemma 等主流大模型

轻量级、开源、跨平台,把大模型本地部署的门槛从 "专业工程师" 降到 "普通用户"

核心目标:让任何人都能零成本、零代码在本地跑大模型,支撑 Agent、聊天、代码生成等场景

Ollama 核心特性

特性 具体说明

一键装模型 ollama run llama3 直接下载 + 运行 Llama 3,不用手动下载权重、配置环境

跨平台 支持 Mac(包括 M1/M2/M3)、Windows、Linux,本地电脑 / 服务器都能跑

轻量化 自动优化显存,4GB 内存也能跑小模型,低配设备也能用

API 接口 内置 REST API,可对接 OpenClaw/Agent/ 自己的程序,轻松集成到之前关注的 Agent 系统

模型自定义 支持 Modelfile 定制模型(改参数、加提示词、合并 LoRA),能微调适配自己的需求

多模型并行 同时运行多个模型(比如 Llama 3 + Qwen),不同任务用不同模型&灵活切换

开源免费 核心代码开源,无商业限制

Ollama 基础使用

  1. 安装

    Mac/Linux:终端执行 curl -fsSL https://ollama.com/install.sh | sh

    Windows:官网下载安装包,双击下一步即可

    验证安装:ollama -v 显示版本号即成功

  2. 核心命令

bash 复制代码
# 1. 运行模型(自动下载+启动)
ollama run llama3  # 运行 Llama 3 7B
ollama run qwen:7b  # 运行通义千问 7B
ollama run phi3:mini  # 运行微软 Phi 3 迷你版(适合低配设备)

# 2. 查看本地已安装模型
ollama list

# 3. 停止模型
ollama stop llama3

# 4. 删除模型(释放空间)
ollama rm llama3

# 5. 查看模型详情
ollama show llama3

# 6. 启动 API 服务(默认端口 11434)
ollama serve  # 后台运行:nohup ollama serve &
  1. API 调用(对接 Agent / 程序)
    Ollama 内置 REST API,可直接用 HTTP 请求调用,示例(Python):
py 复制代码
import requests
import json

# 调用 Llama 3 聊天
def chat_with_ollama(prompt):
    url = "http://localhost:11434/api/chat"
    data = {
        "model": "llama3",
        "messages": [{"role": "user", "content": prompt}],
        "stream": False  # 非流式返回,直接拿结果
    }
    response = requests.post(url, json=data)
    return response.json()["message"]["content"]

# 测试
print(chat_with_ollama("解释一下 Agent 集群"))
  1. 自定义模型(Modelfile)
    创建 Modelfile 文件,定制模型(比如加系统提示、调整参数):
plaintext 复制代码
# Modelfile 示例:定制 Llama 3 为代码助手
FROM llama3

# 设置系统提示
SYSTEM "你是一个专业的代码助手,只输出简洁、可运行的代码,不做多余解释。"

# 调整参数
PARAMETER temperature 0.1  # 越低越稳定,适合代码生成
PARAMETER max_tokens 2048  # 最大输出长度

构建并运行自定义模型:

bash 复制代码
ollama create code-llama -f Modelfile  # 构建
ollama run code-llama  # 运行

Ollama 技术原理

权重管理:自动下载模型权重(默认从 Ollama 官方仓库),并优化存储(分块下载、增量更新)

推理优化:针对不同硬件(CPU/GPU/M1/M2)做指令集优化;支持模型量化(4bit/8bit),降低显存占用

封装层:把复杂的推理框架(llama.cpp、GGUF)封装成简单的命令行 / API,用户不用接触底层

Ollama 实战场景

  1. 对接 OpenClaw(本地 Agent + 本地模型)

    优势:数据全在本地,隐私可控,无 API 费用,无 429 限流;

    步骤:在 OpenClaw 配置文件中,把模型接口指向 Ollama 的 API(http://localhost:11434)即可

  2. 解决 OpenClaw 整点流量暴增

    用 Ollama 本地模型替代云端 API,避免大量实例同时调用云端接口;

    结合缓存前缀匹配,让 Agent 优先查缓存,再调用本地模型,进一步降低压力

  3. 本地开发 Agent 原型

    不用申请云端 API Key,直接用 Ollama 快速测试 Agent 的任务拆解、工具调用逻辑

    低成本验证想法,再迁移到云端模型

  4. 低配置设备部署

    对树莓派、老旧电脑,用 Ollama 运行轻量化模型(比如 Phi 3 mini、Llama 3 8B 量化版)

    实现 "低配设备 + 本地 Agent + 本地模型" 的全离线方案

避坑点

模型下载慢:可配置国内镜像源(比如阿里云、腾讯云镜像),或手动下载权重后导入

显存不足:运行大模型(比如 Llama 3 70B)前,先量化(ollama run llama3:70b-q4_0),4bit 量化能减少 75% 显存占用

API 端口暴露:默认只监听本地(127.0.0.1),若要局域网访问,需修改配置(OLLAMA_HOST=0.0.0.0 ollama serve),注意安全

模型兼容性:部分小众模型可能不支持,优先选 Ollama 官方列表里的模型(ollama list models 查看)

总结

Ollama 核心是本地大模型的一键运行工具,零配置、跨平台、开源免费,大幅降低本地部署门槛

核心用法:通过命令行运行模型,通过 API 对接 Agent / 程序,通过 Modelfile 自定义模型

最佳实践:结合 OpenClaw 等 Agent 工具,搭建 "本地模型 + 本地 Agent" 的全离线、隐私可控的智能系统,还能缓解整点流量暴增问题

相关推荐
小鹰-上海鹰谷-电子实验记录本6 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent6 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt
Bruce_Liuxiaowei6 小时前
Prompt注入_我的AI编码助手被策反了
人工智能·ai·prompt·提示词·智能体
Samooyou10 小时前
RAG项目案例--02在线检索&过滤流水线
人工智能·python·ai·全文检索·检索
j_xxx404_12 小时前
MySQL表操作硬核解析:从 CREATE TABLE 到磁盘文件、ALTER TABLE 与 DDL 风险
运维·服务器·数据库·c++·mysql·adb·ai
周易宅12 小时前
Hermes Agent 内部/后端命令速查表
ai·agent·hermes
Jackeyzhe13 小时前
让 3 个 AI 一起写公众号:一篇 Hermes 多 Agent 实操
ai
AI导出鸭PC端14 小时前
智谱清言怎么生成word文档?AI导出鸭终结乱码烦恼
人工智能·ai·c#·word·豆包·ai导出鸭
iChochy14 小时前
通过 ZenMux 使用 Claude Code CLI 解锁更多 AI 模型,包括 Claude 所有模型
ai·claude
Nile14 小时前
Claude Code-Dynamic Workflows:1.为什么用工作流?
人工智能·ai·ai编程·ai-native