【OpenClaw：本地模型】16、OpenClaw + Ollama集成——私有化部署LLM，零成本运行AI智能体

零成本运行AI智能体：OpenClaw+Ollama本地私有化部署完全指南

告别API账单，让AI真正属于你自己------数据隐私+零Token成本+离线可用

引言：为什么需要本地模型？

在OpenClaw的生态中，模型是AI的"大脑"。无论是GPT-4还是Claude，云端大模型虽然强大，但存在三个无法回避的问题：

成本居高不下：一个中等规模的团队，每月API费用轻松超过$500
隐私风险：敏感代码、商业文档、个人数据必须上传到厂商服务器
网络依赖：断网环境AI直接"罢工"

OpenClaw + Ollama的组合正是为解决这些问题而生。Ollama作为轻量级本地大模型管理工具，能将Llama、Qwen等开源模型部署在你的电脑上，让OpenClaw彻底摆脱云端依赖，实现本地推理、数据私有化、零Token成本的全闭环体验。
本地部署模式
用户指令
OpenClaw网关
本地Ollama

Llama/Qwen
返回结果
零成本

数据留在本地
云端部署模式
用户指令
OpenClaw网关
云端API

GPT-4/Claude
返回结果
每Token计费

数据上传厂商

本文将手把手教你完成OpenClaw+Ollama的完整集成，从安装部署到性能优化，再到混合模型策略和实战案例，让你拥有真正属于自己的AI智能体。

一、Ollama部署与配置：搭建本地"大脑"

1.1 硬件要求

在开始之前，先确认你的硬件是否满足要求：

配置项	最低要求	推荐配置
GPU	NVIDIA显存≥4GB（可运行4B模型）	NVIDIA显存≥8GB（流畅运行7B~14B模型）
内存	16GB	32GB及以上
磁盘空间	20GB空闲（SSD优先）	50GB以上SSD
处理器	Intel i5/Ryzen 5	Intel i7/Ryzen 7或Apple M系列

特别说明：

无独立显卡可使用CPU推理，但速度会大幅下降
Apple Silicon（M系列芯片）通过Metal加速，性能优秀
显存4GB可运行Qwen2.5-4B等轻量模型

1.2 Ollama一键安装

macOS/Linux用户 ：

bash 复制代码

curl -fsSL https://ollama.com/install.sh | sh

Windows用户 ：

访问 Ollama官网下载Windows安装包
双击运行，默认下一步完成安装
打开PowerShell（管理员身份）验证：

powershell 复制代码

ollama --version

安装完成后，Ollama会自动注册为系统服务，开机自启。

1.3 拉取基础大模型

Ollama支持一键拉取主流开源模型。推荐通义千问系列，中文适配性最佳：

bash 复制代码

# 拉取Qwen2.5 7B模型（约4.7GB，推荐，兼顾性能与硬件要求）
ollama pull qwen2.5:7b

# 更强推理能力（显存≥10GB可选）
ollama pull qwen3:8b

# 轻量版（显存4GB可用）
ollama pull qwen2.5:4b

# 英文场景可选Llama3
ollama pull llama3:8b

拉取过程耗时5~20分钟，取决于网络速度。模型文件会自动存储在Ollama目录。

1.4 验证本地对话

拉取完成后，可以直接在终端测试模型：

bash 复制代码

ollama run qwen2.5:7b

输入"你好"，看到模型正常回复，说明Ollama已就绪。

1.5 关键定制：扩展上下文窗口（必做）

OpenClaw要求模型上下文窗口**≥16000 tokens**，而Ollama基础模型默认仅4096 tokens 。必须手动定制扩展：
基础模型

上下文4096
创建Modelfile

设置num_ctx 32768
创建自定义模型
新模型

上下文32768
满足OpenClaw要求

Windows PowerShell（管理员身份）：

powershell 复制代码

# 1. 切换到用户根目录
cd C:\Users\<你的用户名>

# 2. 创建Modelfile配置文件
@"FROM qwen2.5:7b
PARAMETER num_ctx 32768"@ | Out-File -Encoding ascii Modelfile

# 3. 验证配置文件
Get-Content Modelfile

# 4. 创建自定义模型（命名为qwen2.5:7b-32k）
ollama create qwen2.5:7b-32k -f Modelfile

# 5. 验证自定义模型
ollama list  # 应显示qwen2.5:7b-32k
ollama show qwen2.5:7b-32k --modelfile  # 确认包含num_ctx 32768

macOS/Linux用户 ：

bash 复制代码

# 创建Modelfile
echo "FROM qwen2.5:7b\nPARAMETER num_ctx 32768" > Modelfile

# 创建自定义模型
ollama create qwen2.5:7b-32k -f Modelfile

# 验证
ollama list

二、OpenClaw对接Ollama：让大脑连接身体

2.1 OpenClaw安装

bash 复制代码

# npm全局安装OpenClaw（最新稳定版）
npm install -g openclaw

# 验证安装
openclaw --version

若权限不足，Windows请以管理员身份运行PowerShell，或执行：

bash 复制代码

npm install -g openclaw --unsafe-perm

2.2 交互式配置：对接本地Ollama

执行配置向导，将OpenClaw指向本地Ollama ：

bash 复制代码

openclaw onboard

按提示完成以下配置（严格操作，避免错误）：

配置步骤	操作要求	输入/选择内容
Model/auth provider	选择模型提供商，拉到列表最后	`Custom Provider`
API Base URL	本地Ollama的API地址	`http://127.0.0.1:11434/v1`
API Key	任意字符串（不可留空）	`ollama`（或自定义如`123456`）
Endpoint compatibility	接口兼容模式	`OpenAI-compatible`
Model ID	本地自定义模型名	`qwen2.5:7b-32k`
后续所有配置项	暂不配置渠道、技能等	全部选择`Skip for now / No`

User Ollama OpenClaw User Ollama OpenClaw 输出Web UI地址 http://127.0.0.1:18789 openclaw onboard 测试连接 http://127.0.0.1:11434/v1 返回模型列表验证qwen2.5:7b-32k可用 Verification successful

配置完成后，若显示"Verification successful"，表示连接成功；控制台会显示OpenClaw Web UI地址（http://127.0.0.1:18789）和管理员Token，务必保存Token 。

2.3 解决核心报错：模型上下文窗口过小

首次启动可能遇到：

复制代码

Model context window too small (4096 tokens). Minimum is 16000

这是因为OpenClaw缓存了原始模型的4096参数，需要手动修改配置文件：

找到两个核心配置文件 ：

主配置文件：C:\Users\<你的用户名>\.openclaw\openclaw.json
模型配置文件：C:\Users\<你的用户名>\.openclaw\agents\main\agent\models.json

修改方法：

用记事本打开两个文件
搜索"maxTokens"或"contextWindow"
将值从4096改为32768
保存文件，重启OpenClaw：openclaw gateway restart

2.4 测试调用

在浏览器打开 http://127.0.0.1:18789，粘贴Token登录。输入测试指令：

复制代码

帮我写一个Python函数，计算斐波那契数列

如果模型正常响应，说明OpenClaw+Ollama集成成功！

三、模型适配优化：让本地模型更好用

3.1 提示词适配

不同模型的提示词格式存在差异。Ollama兼容OpenAI格式，但某些模型有特殊要求。

通用适配方案 ：在OpenClaw的~/.openclaw/agents/main/agent/system.md中，针对不同模型设置system prompt：

markdown 复制代码

# 当使用Qwen系列模型时
你是一个有帮助的AI助手，用中文回答，保持简洁。

# 当使用Llama系列时（英文模型需明确语言）
You are a helpful assistant. Answer in Chinese.

3.2 上下文窗口调整

OpenClaw允许在配置中动态调整上下文窗口大小：

bash 复制代码

# 查看当前模型配置
openclaw config get models

# 设置模型参数（临时）
openclaw config set models.providers.custom.options.num_ctx 16384

合理设置上下文窗口的原则：

简单对话：4K~8K足够
文件分析、长文档处理：16K~32K
代码审查、复杂推理：根据模型能力选择上限

简单对话
文档处理
复杂分析
任务类型
上下文需求
4K-8K

节省内存
16K-32K

平衡性能
32K+

需高配硬件
按需配置num_ctx

3.3 解决"模型输出不稳定"问题

如果模型输出质量不稳定，可以调整采样参数：

yaml 复制代码

# ~/.openclaw/agents/main/agent/model_settings.yaml
temperature: 0.7      # 0.0-1.0，越低越确定，越高越创造
top_p: 0.9            # 核采样，控制多样性
top_k: 40             # 只考虑概率最高的k个token
repeat_penalty: 1.1   # 重复惩罚，避免循环

四、混合模型策略：本地+云端的最佳组合

本地模型虽然零成本，但复杂推理能力不如云端大模型。OpenClaw支持混合模型策略，根据任务类型动态选择模型。

4.1 路由规则设计

简单指令
复杂推理
敏感数据
用户指令
任务分类
本地模型

Qwen2.5-7B
云端模型

GPT-4/Claude
强制本地模型
文件操作/定时任务/简单查询
代码审查/创意写作/复杂分析
隐私数据/商业机密
返回结果

4.2 OpenClaw配置实现

在~/.openclaw/config/models.yaml中配置多模型路由：

yaml 复制代码

# 模型提供商配置
providers:
  local:
    type: custom
    baseUrl: http://127.0.0.1:11434/v1
    apiKey: ollama
    models:
      - qwen2.5:7b-32k
      - llama3:8b
  
  cloud:
    type: openai
    apiKey: ${OPENAI_API_KEY}
    models:
      - gpt-4
      - gpt-3.5-turbo

# 路由规则
routing:
  # 规则1：文件操作、系统命令用本地模型
  - pattern: "文件|目录|备份|整理|移动|复制"
    provider: local
    model: qwen2.5:7b-32k
    
  # 规则2：代码审查、复杂问题用GPT-4
  - pattern: "代码审查|优化|重构|架构|设计模式"
    provider: cloud
    model: gpt-4
    
  # 规则3：敏感关键词强制本地
  - pattern: "密码|密钥|token|隐私|机密"
    provider: local
    model: qwen2.5:7b-32k
    
  # 默认规则：根据复杂度动态判断
  default:
    strategy: dynamic
    local_threshold: 0.7  # 置信度低于0.7转云端

4.3 高级优化：Viking分层路由

对于追求极致Token节省的场景，可以参考OpenClaw-Viking项目的实现：
用户消息
Viking Router

轻量模型判断意图
路由决策
需要哪些工具/文件?
只加载匹配的工具定义
只注入相关的上下文文件
主模型响应
Token节省60%-93%

实测效果：

场景	优化前	优化后	节省
简单对话（"你好"）	15,466 tokens	1,021 tokens	93%
文件操作	15,466 tokens	3,058 tokens	80%
代码编写	15,466 tokens	5,122 tokens	67%

五、性能优化：让本地模型跑得更快

5.1 模型量化：用精度换速度

量化是减少模型内存占用、提升推理速度的核心技术：
原始模型

FP16 16bit
8bit量化

内存减半
4bit量化

内存再减半
2bit量化

极致压缩

精度损失大

Ollama支持多种量化版本：

bash 复制代码

# 拉取4bit量化版本（推荐，平衡速度与精度）
ollama pull qwen2.5:7b-q4_0

# 拉取8bit量化版本（更高精度，内存占用稍大）
ollama pull qwen2.5:7b-q8_0

# 拉取2bit量化版本（极致压缩，仅限极端场景）
ollama pull qwen2.5:7b-q2_k

量化选择建议 ：

显存充足（≥10GB）：使用8bit量化，保留更高精度
显存中等（6-8GB）：使用4bit量化，最佳平衡点
显存紧张（4GB）：使用4bit轻量模型，如qwen2.5:4b-q4_0

5.2 硬件加速配置

NVIDIA GPU ：

安装最新版显卡驱动
Windows设置"首选最大性能"电源模式
验证CUDA可用：ollama run qwen2.5:7b --verbose 查看日志中的设备信息

Apple Silicon (M系列) ：

Ollama自动启用Metal加速
保持充电器插入（某些Mac在电池模式下会降速）
关闭占用GPU的其他应用（视频编辑、浏览器WebGL标签）

CPU优化 ：

bash 复制代码

# 设置线程数（通常为物理核心数）
ollama run qwen2.5:7b --num-thread 8

# 限制内存使用
ollama run qwen2.5:7b --memory-limit 8G

5.3 内存优化技巧

合理设置上下文窗口 ：不需要时保持在4K-8K，而非始终32K
定期清理缓存 ：ollama cleanup
使用批处理 ：合并多个小任务为单个请求
监控资源 ：ollama ps 查看运行中的模型

六、实战案例：基于Ollama+OpenClaw搭建本地代码审查助手

6.1 需求分析

构建一个能够自动审查PR、分析代码质量的AI助手，要求：

所有代码数据留在本地，不上传云端
支持Python、JavaScript、Java等多种语言
发现潜在bug、安全漏洞、代码风格问题

6.2 系统架构

本地服务器
GitHub
PR创建/更新
Webhook触发
OpenClaw网关
代码审查Skill
拉取PR代码
静态分析工具

ESLint/Pylint
LLM分析

Ollama+Qwen
生成审查报告
评论到PR
开发者查看反馈

6.3 开发步骤

步骤1：创建代码审查Skill

创建 ~/.openclaw/skills/code-review/index.ts：

typescript 复制代码

import { exec } from 'child_process';
import { promisify } from 'util';
import fs from 'fs-extra';
import path from 'path';
import { LLM } from 'openclaw-sdk';

const execAsync = promisify(exec);

interface PRParams {
  repo: string;        // 仓库名，如 "user/repo"
  prNumber: number;    // PR编号
  baseDir?: string;    // 本地克隆目录，默认 ~/repos
}

export async function handler(params: PRParams) {
  const baseDir = params.baseDir || path.join(process.env.HOME, 'repos');
  const repoDir = path.join(baseDir, params.repo.replace('/', '-'));
  const prDir = path.join(repoDir, `pr-${params.prNumber}`);
  
  // 1. 克隆PR代码（如果不存在）
  if (!await fs.pathExists(prDir)) {
    await fs.ensureDir(prDir);
    await execAsync(
      `git clone https://github.com/${params.repo}.git ${prDir} && ` +
      `cd ${prDir} && git fetch origin pull/${params.prNumber}/head:pr-branch && ` +
      `git checkout pr-branch`
    );
  }
  
  // 2. 运行静态分析工具
  const linters = {
    js: 'npx eslint --format json',
    py: 'pylint --output-format=json',
    java: 'checkstyle -c /sun_checks.xml -f xml'
  };
  
  const lintResults = {};
  for (const [ext, cmd] of Object.entries(linters)) {
    try {
      const { stdout } = await execAsync(`cd ${prDir} && find . -name "*.${ext}" | xargs ${cmd} 2>/dev/null`);
      lintResults[ext] = JSON.parse(stdout);
    } catch (e) {
      // 某些工具返回非零退出码但仍有输出
      if (e.stdout) {
        try { lintResults[ext] = JSON.parse(e.stdout); } catch { }
      }
    }
  }
  
  // 3. 获取PR的变更文件列表
  const { stdout: diffFiles } = await execAsync(`cd ${prDir} && git diff --name-only origin/main...pr-branch`);
  const changedFiles = diffFiles.split('\n').filter(Boolean);
  
  // 4. 读取变更内容
  const changes = [];
  for (const file of changedFiles.slice(0, 10)) { // 限制10个文件避免token爆炸
    if (await fs.pathExists(path.join(prDir, file))) {
      const content = await fs.readFile(path.join(prDir, file), 'utf-8');
      changes.push(`文件: ${file}\n\`\`\`\n${content.slice(0, 1000)}\n\`\`\``);
    }
  }
  
  // 5. 调用本地LLM分析
  const llm = new LLM({ provider: 'local', model: 'qwen2.5:7b-32k' });
  const prompt = `
你是一位资深的代码审查专家。请分析以下PR的变更，指出：
1. 潜在的bug或逻辑错误
2. 安全漏洞（SQL注入、XSS等）
3. 性能问题
4. 代码风格不符合最佳实践的地方
5. 改进建议

变更文件列表：
${changedFiles.join('\n')}

静态分析结果：
${JSON.stringify(lintResults, null, 2)}

关键变更内容：
${changes.join('\n\n')}

请用中文输出审查报告，按严重程度排序。
  `;
  
  const reviewReport = await llm.complete(prompt);
  
  // 6. 格式化评论
  const comment = `## 🤖 AI代码审查报告\n\n${reviewReport}\n\n---\n*由OpenClaw本地模型自动生成*`;
  
  // 7. 发布到PR（需配置GitHub Token）
  // await postGitHubComment(params.repo, params.prNumber, comment);
  
  return {
    code: 0,
    data: {
      reviewed: changedFiles.length,
      report: comment
    }
  };
}

步骤2：配置GitHub Webhook

在GitHub仓库设置中添加Webhook：

Payload URL : http://你的OpenClaw公网IP:18789/webhook/github
Content type : application/json
Events: 选择"Pull requests"

步骤3：创建Cron任务（可选，定时审查）

yaml 复制代码

# ~/.openclaw/cron/pr-review.yaml
name: pr-review
schedule: "*/30 * * * *"  # 每30分钟检查一次
type: cron
skill: code-review
params:
  repo: "your-org/your-repo"
  # 可动态获取最近PR的逻辑需在Skill中实现

6.4 效果验证

当有新的PR创建或更新时，OpenClaw会自动：

拉取PR代码到本地
运行ESLint/Pylint等静态分析
用Qwen模型深度分析代码逻辑
在PR评论区生成审查报告

整个过程零API成本，所有数据留在本地服务器，敏感代码永不外泄。

七、结语：本地AI的时代已经到来

OpenClaw + Ollama的组合，让AI智能体真正实现了"我的AI我做主"：

零成本运行：告别按Token计费的账单焦虑
数据绝对隐私：敏感代码、商业文档永不离开本地
离线可用：飞机上、远程机房、内网环境都能工作
自由定制：可按需选择模型、调整参数、优化性能

随着Llama 3、Qwen 3等开源模型的性能逼近GPT-4，本地部署的体验正在快速提升。现在，正是拥抱本地AI的最佳时机。

本文所有Mermaid图均可直接复制到支持Mermaid的Markdown编辑器中查看。如果在部署过程中遇到问题，欢迎在评论区留言交流。