OpenClaw 大语言模型接入指南

目录

  1. 在线模型 (Cloud APIs)
  2. 本地模型 (Local/On-Premise)
  3. 在线 vs 本地对比
  4. OpenClaw 接入配置
  5. 选型建议

一、在线模型 (Cloud APIs)

1.1 主流商业模型概览

|---------------|-------------------|----------|-----------|----------|----------------|
| 供应商 | 模型 | 擅长领域 | 上下文长度 | 中文支持 | OpenClaw支持 |
| Moonshot | kimi-coding/k2p5 | 代码生成、长文本 | 256K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| Moonshot | kimi-chat | 通用对话、长文本 | 200K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| OpenAI | GPT-4o | 通用、多模态 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | GPT-4o-mini | 轻量级通用 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | o1/o3 | 推理、数学 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3.5 Sonnet | 代码、分析 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3 Opus | 复杂任务 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Pro | 多模态、长文本 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Flash | 快速响应 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-V3 | 代码、推理 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-R1 | 推理专项 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Max | 通用、代码 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Coder | 代码专项 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| 01.AI | Yi-Lightning | 通用对话 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Zhipu | GLM-4 | 通用、Agent | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |

1.2 详细模型分析

1.2.1 Moonshot (Kimi)

模型系列:

  • kimi-coding/k2p5 - 编程专用模型
  • kimi-chat - 通用对话模型

核心优势:

  • 超长上下文: 支持200K-256K tokens,适合长文档分析
  • 中文优化: 国内团队,中文理解和生成能力顶尖
  • 代码能力: Kimi Coding在代码生成和调试上表现优异
  • 文件处理: 支持直接上传PDF、Word、代码文件分析

适用场景:

  • 长文档分析、论文阅读
  • 代码生成、代码审查
  • 中文内容创作
  • 知识库问答

收费参考 (2026.03):

|------------------|------------------|------------------|-----------|
| 模型 | Input | Output | 备注 |
| kimi-coding/k2p5 | ¥0.012/1K tokens | ¥0.048/1K tokens | 缓存命中50%折扣 |
| kimi-chat | ¥0.012/1K tokens | ¥0.048/1K tokens | - |

OpenClaw配置:

复制代码
models:
  kimi-coding:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1

1.2.2 OpenAI

模型系列:

  • gpt-4o - 旗舰多模态模型
  • gpt-4o-mini - 轻量高速版
  • o1 / o3 - 推理专用模型(思维链)

核心优势:

  • 多模态: 支持文本、图像、音频输入
  • 工具调用: Function Calling能力顶尖
  • 生态系统: 最完善的API生态和文档
  • o系列推理: 在数学、逻辑推理上表现突出

适用场景:

  • 多模态应用(图像理解+生成)
  • 复杂工具调用和Agent系统
  • 需要最强推理能力的任务
  • 国际化产品

收费参考:

|-------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| GPT-4o | 2.50/1M tokens | 10/1M tokens | - |
| GPT-4o-mini | 0.15/1M tokens | 0.60/1M tokens | 高性价比 |
| o1 | 15/1M tokens | 60/1M tokens | 推理成本高 |
| o3-mini | 1.10/1M tokens | 4.40/1M tokens | 轻量推理 |

OpenClaw配置:

复制代码
models:
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1

1.2.3 Anthropic (Claude)

模型系列:

  • claude-3-5-sonnet-20241022 - 平衡型
  • claude-3-opus-20240229 - 最强能力
  • claude-3-haiku - 轻量快速

核心优势:

  • 代码能力: 在代码理解和生成上业界顶尖
  • 长上下文: 200K上下文,适合复杂分析
  • 安全性: 对有害请求拒绝率较高
  • Artifacts: 支持生成复杂文档和代码预览

适用场景:

  • 复杂代码生成和重构
  • 长文档深度分析
  • 需要高安全性的应用
  • 技术写作

收费参考:

|-------------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Claude 3.5 Sonnet | 3/1M tokens | 15/1M tokens | - |
| Claude 3 Opus | 15/1M tokens | 75/1M tokens | 最贵但最强 |
| Claude 3 Haiku | 0.25/1M tokens | 1.25/1M tokens | 轻量 |

OpenClaw配置:

复制代码
models:
  claude-sonnet:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1

1.2.4 Google (Gemini)

模型系列:

  • gemini-2.0-pro-exp-02-05 - 专业版
  • gemini-2.0-flash - 快速版
  • gemini-2.0-flash-lite - 轻量版

核心优势:

  • 超长上下文: 1M tokens(业界最长)
  • 多模态原生: 从底层设计支持图文音视频
  • 免费额度: generous免费 tier
  • Google生态: 与Google服务深度整合

适用场景:

  • 超长文档分析(整本书、代码库)
  • 视频内容理解
  • 与Google服务结合的应用
  • 成本敏感的长文本任务

收费参考:

|-----------------------|-------------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Gemini 2.0 Pro | 1.25/1M tokens | 5/1M tokens | 视频额外计费 |
| Gemini 2.0 Flash | 0.075/1M tokens | 0.30/1M tokens | 性价比极高 |
| Gemini 2.0 Flash-Lite | 0.0375/1M tokens | 0.15/1M tokens | 最低成本 |

OpenClaw配置:

复制代码
models:
  gemini-pro:
    provider: google
    model: gemini-2.0-pro-exp-02-05
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta

1.2.5 DeepSeek

模型系列:

  • deepseek-chat (V3) - 通用对话
  • deepseek-reasoner (R1) - 推理专用

核心优势:

  • 性价比极高: 价格远低于GPT-4,性能接近
  • 中文优化: 国内团队,中文理解优秀
  • 开源生态: 部分模型开源,可本地部署
  • R1推理: 媲美o1的推理能力,价格1/20

适用场景:

  • 成本敏感的通用任务
  • 需要推理能力的数学/逻辑任务
  • 中文场景优先的应用
  • 预算有限的初创项目

收费参考:

|-------------|------------------|------------------|------------|
| 模型 | Input | Output | 备注 |
| DeepSeek-V3 | ¥0.002/1K tokens | ¥0.008/1K tokens | 缓存命中¥0.001 |
| DeepSeek-R1 | ¥0.004/1K tokens | ¥0.016/1K tokens | 推理模型 |

OpenClaw配置:

复制代码
models:
  deepseek-v3:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1

1.2.6 阿里巴巴 (Qwen)

模型系列:

  • qwen-max / qwen-plus / qwen-turbo - 通用系列
  • qwen-coder-plus - 代码专用
  • qwen-vl-max - 多模态视觉

核心优势:

  • 中文顶尖: 中文理解和生成能力国内最强
  • 开源生态: Qwen2.5系列全面开源
  • 多模态: VL系列视觉理解能力强
  • 阿里云: 国内访问稳定

适用场景:

  • 中文NLP任务
  • 阿里云生态应用
  • 需要开源模型微调的场景
  • 企业级中文应用

收费参考:

|------------|-------------------|------------------|--------|
| 模型 | Input | Output | 备注 |
| Qwen-Max | ¥0.02/1K tokens | ¥0.06/1K tokens | 最强 |
| Qwen-Plus | ¥0.0008/1K tokens | ¥0.002/1K tokens | 性价比 |
| Qwen-Coder | ¥0.002/1K tokens | ¥0.006/1K tokens | 代码 |

OpenClaw配置:

复制代码
models:
  qwen-max:
    provider: openai-compatible
    model: qwen-max
    api_key: ${DASHSCOPE_API_KEY}
    base_url: https://dashscope.aliyuncs.com/compatible-mode/v1

1.3 在线模型收费对比总表

|---------------|-------------------|-----------|----------|-----------|
| 供应商 | 模型 | 输入价格 | 输出价格 | 性价比评分 |
| Moonshot | Kimi K2.5 | ¥12/1M | ¥48/1M | ⭐⭐⭐⭐ |
| OpenAI | GPT-4o | 2.5/1M | 10/1M | ⭐⭐⭐ |
| OpenAI | GPT-4o-mini | 0.15/1M | 0.6/1M | ⭐⭐⭐⭐⭐ |
| Anthropic | Claude 3.5 Sonnet | 3/1M | 15/1M | ⭐⭐⭐ |
| Google | Gemini 2.0 Flash | 0.075/1M | 0.3/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | V3 | ¥2/1M | ¥8/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | R1 | ¥4/1M | ¥16/1M | ⭐⭐⭐⭐⭐ |
| Alibaba | Qwen-Plus | ¥0.8/1M | ¥2/1M | ⭐⭐⭐⭐ |
| 01.AI | Yi-Lightning | ¥0.99/1M | ¥0.99/1M | ⭐⭐⭐⭐ |

💡 价格提示: 1M tokens ≈ 750,000个英文单词 ≈ 500,000个中文字符


二、本地模型 (Local/On-Premise)

2.1 主流本地模型概览

|-----------------|----------------|-----------------|----------|---------------|----------------|
| 模型 | 参数规模 | 硬件要求 | 擅长领域 | 许可证 | OpenClaw支持 |
| Llama 3 | 8B/70B | 16GB/80GB+ VRAM | 通用对话 | Llama 3.1 | ✅ Ollama/vLLM |
| Qwen2.5 | 7B/14B/32B/72B | 16GB-160GB VRAM | 中文、代码 | Apache 2.0 | ✅ Ollama/vLLM |
| DeepSeek-V3 | 671B (MoE) | 多卡A100 | 代码、推理 | DeepSeek | ✅ vLLM/ollama |
| Mistral | 7B/8x7B/8x22B | 16GB-160GB VRAM | 通用、推理 | Apache 2.0 | ✅ Ollama/vLLM |
| Gemma | 2B/4B/9B/27B | 8GB-48GB VRAM | 轻量通用 | Gemma | ✅ Ollama |
| CodeLlama | 7B/13B/34B | 16GB-80GB VRAM | 代码生成 | Llama 2 | ✅ Ollama |
| Phi-4 | 14B | 32GB VRAM | 推理、数学 | MIT | ✅ Ollama |
| Yi-1.5 | 6B/9B/34B | 16GB-80GB VRAM | 中文、双语 | Apache 2.0 | ✅ Ollama |
| GLM-4 | 9B | 24GB VRAM | 中文Agent | Model License | ✅ vLLM |

2.2 详细本地模型分析

2.2.1 Meta Llama 3/3.1

模型规格:

  • llama3.1:8b - 80亿参数,消费级GPU可跑
  • llama3.1:70b - 700亿参数,需要大显存
  • llama3.1:405b - 4050亿参数,企业级集群

核心优势:

  • 英语能力顶尖: 英语理解和生成能力开源最强
  • 工具调用: 原生支持Function Calling
  • 生态完善: HuggingFace生态支持最好
  • 许可证友好: 允许商用(需遵守Llama 3.1许可)

硬件需求:

|--------|----------|-------------------|--------|
| 模型 | 显存需求 | 推荐GPU | 量化 |
| 8B | 16GB | RTX 4090 / A4000 | Q4/Q8 |
| 70B | 80GB | A100 80GB / 2xA40 | Q4 |
| 405B | 500GB+ | 8xA100集群 | Q4 |

适用场景:

  • 英语为主的私有部署
  • 需要工具调用的Agent系统
  • 数据隐私要求高的场景
  • 长期运行的服务

OpenClaw配置 (Ollama):

复制代码
models:
  llama3.1-local:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434

2.2.2 Alibaba Qwen2.5

模型规格:

  • qwen2.5:7b - 轻量中文模型
  • qwen2.5:14b - 平衡型
  • qwen2.5:32b - 高性能
  • qwen2.5:72b - 中文最强开源
  • qwen2.5-coder:14b - 代码专用

核心优势:

  • 中文最强开源: 中文理解和生成能力开源模型顶尖
  • 长上下文: 支持128K上下文
  • 代码能力: Coder版本代码能力接近GPT-4
  • 工具调用: 支持Function Calling
  • 完全开源: Apache 2.0许可证,可商用

硬件需求:

|--------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| 7B | 16GB | RTX 4090 |
| 14B | 32GB | A6000 / A100 40GB |
| 32B | 64GB | A100 80GB |
| 72B | 160GB | 2xA100 80GB |

适用场景:

  • 中文为主的私有部署
  • 需要长上下文的中文应用
  • 代码生成和审查
  • 企业级中文Agent

OpenClaw配置:

复制代码
models:
  qwen2.5-local:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434

2.2.3 DeepSeek (本地部署)

模型规格:

  • deepseek-v3 (671B MoE) - 专家混合模型
  • deepseek-r1 - 推理专用

核心优势:

  • 性能顶尖: 媲美GPT-4的开源模型
  • 推理能力: R1版本推理能力接近o1
  • 成本优势: 本地部署长期使用成本低
  • 开源可商用: 允许商用部署

硬件需求 (DeepSeek-V3):

|--------|----------|---------------|
| 配置 | 显存需求 | 说明 |
| FP8完整版 | 800GB+ | 需16xA100/H100 |
| INT8量化 | 400GB+ | 需8xA100 80GB |
| INT4量化 | 200GB+ | 需4xA100 80GB |

⚠️ 注意: DeepSeek-V3需要专业级GPU集群,个人用户建议使用API

适用场景:

  • 大型企业的私有化部署
  • 需要GPT-4级别能力但数据不出域
  • 高并发的生产环境
  • 长期使用成本优化

OpenClaw配置 (vLLM):

复制代码
models:
  deepseek-local:
    provider: openai-compatible
    model: deepseek-ai/DeepSeek-V3
    base_url: http://localhost:8000/v1

2.2.4 Mistral AI

模型规格:

  • mistral:7b - 轻量高效
  • mixtral:8x7b - MoE专家混合
  • mixtral:8x22b - 大MoE模型

核心优势:

  • 高效推理: 7B参数达到13B性能
  • MoE架构: 稀疏专家混合,推理成本低
  • 欧洲团队: GDPR合规性好
  • Apache 2.0: 完全开源可商用

硬件需求:

|---------------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Mistral 7B | 16GB | RTX 4090 |
| Mixtral 8x7B | 48GB | A6000 / A100 40GB |
| Mixtral 8x22B | 140GB | 2xA100 80GB |

适用场景:

  • 高效推理需求的场景
  • 欧洲合规要求
  • 需要MoE架构的应用

OpenClaw配置:

复制代码
models:
  mixtral-local:
    provider: ollama
    model: mixtral:8x7b
    base_url: http://localhost:11434

2.2.5 微软 Phi-4

模型规格:

  • phi4:14b - 140亿参数

核心优势:

  • 小模型大能力: 14B参数达到70B性能
  • 推理能力: 数学和逻辑推理出色
  • MIT许可证: 最宽松的开源许可
  • 微软生态: 与Azure/Microsoft工具集成

硬件需求:

|-----------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Phi-4 14B | 32GB | A100 40GB / A6000 |

适用场景:

  • 推理密集型任务
  • 数学计算和代码生成
  • 需要小体积高性能的场景

OpenClaw配置:

复制代码
models:
  phi4-local:
    provider: ollama
    model: phi4:14b
    base_url: http://localhost:11434

2.3 本地模型部署工具

|-------------------------------|---------------|----------------|------------|
| 工具 | 特点 | OpenClaw支持 | 适用场景 |
| Ollama | 最简单,一键运行 | ✅ 原生支持 | 个人/小团队 |
| vLLM | 高吞吐,生产级 | ✅ API兼容 | 企业/高并发 |
| llama.cpp | 纯CPU运行,无GPU | ✅ API兼容 | 无显卡环境 |
| TensorRT-LLM | NVIDIA优化,最快 | ✅ API兼容 | NVIDIA GPU |
| Text Generation Inference | HuggingFace官方 | ✅ API兼容 | HF生态 |

Ollama 配置示例
复制代码
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull qwen2.5:14b
ollama pull llama3.1:8b

# 运行服务
ollama serve

# OpenClaw配置
models:
  ollama-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    
  ollama-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434
vLLM 配置示例
复制代码
# 安装vLLM
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 32768

# OpenClaw配置
models:
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1

三、在线 vs 本地对比

3.1 综合对比表

|----------|---------------|---------------|
| 维度 | 在线模型 | 本地模型 |
| 成本模式 | 按量付费,无固定成本 | 前期硬件投入,后期低成本 |
| 响应延迟 | 网络依赖,50-500ms | 本地计算,10-100ms |
| 数据隐私 | 数据上传云端 | 数据完全不出域 |
| 可用性 | 依赖供应商服务 | 完全自主可控 |
| 模型选择 | 供应商限定 | 任意开源模型 |
| 定制能力 | 有限(Prompt工程) | 可微调、可量化 |
| 扩展性 | 弹性扩缩容 | 受硬件限制 |
| 维护成本 | 低 | 高(需运维) |
| 离线使用 | ❌ 不可 | ✅ 可 |

3.2 成本对比分析

场景:月消耗100M tokens(约7500万字)

|---------------------|----------------|------------------|
| 方案 | 月成本 | 说明 |
| GPT-4o API | $350 (约¥2,500) | 按量付费 |
| DeepSeek-V3 API | ¥200 | 最便宜的API方案 |
| 本地 4090 | ¥0 (电费~¥100) | 硬件成本¥15,000(一次性) |
| 本地 A100 | ¥0 (电费~¥500) | 硬件成本¥80,000(一次性) |

成本平衡点:

  • 月消耗 > 50M tokens:本地部署开始划算
  • 月消耗 > 200M tokens:本地部署显著节省

3.3 性能对比

|----------|----------|-----------------|
| 指标 | 在线模型 | 本地模型 (量化) |
| 推理速度 | 快 (专业优化) | 中等 (依赖硬件) |
| 输出质量 | 最优 | 接近 (Q4量化损失<5%) |
| 并发能力 | 高 | 受显存限制 |
| 长上下文 | 支持 | 受显存限制 |

3.4 选择决策树

复制代码
是否需要数据不出域?
├── 是 → 本地部署
│       └── 硬件预算?
│           ├── <¥5,000 → Ollama + Qwen2.5:7B / Llama3.1:8B
│           ├── ¥5,000-20,000 → RTX 4090 + Qwen2.5:14B
│           ├── ¥20,000-80,000 → A100 40GB + Qwen2.5:72B
│           └── >¥100,000 → 多卡A100 + DeepSeek-V3
│
└── 否 → 使用在线API
        └── 预算?
            ├── 极紧 → DeepSeek-V3 / Gemini Flash
            ├── 一般 → Kimi / Qwen-Plus
            ├── 充足 → GPT-4o / Claude 3.5
            └── 无限 → GPT-4o / Claude 3 Opus + 本地备份

四、OpenClaw 接入配置

4.1 完整配置示例

复制代码
# ~/.openclaw/config.yaml

models:
  # ========== 在线模型 ==========
  
  # Moonshot Kimi (推荐中文、代码)
  kimi:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1
    priority: 1
  
  # OpenAI GPT-4o (推荐多模态、工具调用)
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1
    priority: 2
  
  # Anthropic Claude (推荐代码、分析)
  claude:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1
    priority: 3
  
  # DeepSeek (推荐性价比)
  deepseek:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1
    priority: 4
  
  # Google Gemini (推荐长文本)
  gemini:
    provider: google
    model: gemini-2.0-flash
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta
    priority: 5
  
  # ========== 本地模型 ==========
  
  # Ollama本地模型
  local-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    priority: 10
  
  local-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434
    priority: 11
  
  # vLLM本地服务
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1
    priority: 12

# 默认模型
default_model: kimi

# 路由策略
routing:
  # 根据任务类型选择模型
  task_routing:
    code: kimi          # 代码任务用Kimi
    long_context: gemini # 长文本用Gemini
    analysis: claude    # 分析任务用Claude
    default: kimi       # 默认用Kimi
  
  # 故障转移
  fallback:
    - kimi
    - deepseek
    - local-qwen

4.2 环境变量配置

复制代码
# 添加到 ~/.bashrc 或 ~/.zshrc

# Moonshot Kimi
export KIMI_API_KEY="sk-xxxxxxxxxx"

# OpenAI
export OPENAI_API_KEY="sk-xxxxxxxxxx"

# Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxx"

# DeepSeek
export DEEPSEEK_API_KEY="sk-xxxxxxxxxx"

# Google
export GOOGLE_API_KEY="xxxxxxxxxx"

# 阿里云
export DASHSCOPE_API_KEY="sk-xxxxxxxxxx"

4.3 快速切换模型

复制代码
# 命令行切换
openclaw config set default_model gpt-4o
openclaw config set default_model local-qwen

# 会话中临时切换
/model kimi
/model local-qwen

五、选型建议

5.1 按场景推荐

场景1: 个人开发者/小团队

推荐 : kimi-coding/k2p5 + qwen2.5:14b (本地)

  • 在线:Kimi处理复杂任务
  • 本地:Qwen14B处理日常任务,保护隐私
  • 成本:¥0-500/月
场景2: 中文内容创作团队

推荐 : kimi-chat + qwen2.5:72b (本地)

  • 在线:Kimi长文档分析
  • 本地:Qwen72B批量生成
  • 成本:¥500-2000/月 + 硬件投入
场景3: 代码生成工具

推荐 : claude-3-5-sonnet + deepseek-coder:33b (本地)

  • 在线:Claude处理复杂重构
  • 本地:DeepSeek Coder日常补全
  • 成本:$100-300/月 + 硬件投入
场景4: 企业私有部署

推荐 : qwen2.5:72b / deepseek-v3 (本地)

  • 完全数据不出域
  • 高并发vLLM部署
  • 成本:硬件投入¥20万-100万,后期¥1000/月电费
场景5: 多模态应用

推荐 : gpt-4o / gemini-2.0-pro

  • 图像理解 + 生成
  • 视频分析
  • 成本:$200-1000/月

5.2 混合架构建议

复制代码
┌─────────────────────────────────────────────────────────┐
│                    混合架构最佳实践                        │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌──────────────┐    ┌──────────────┐                  │
│  │   在线API    │    │   本地模型    │                  │
│  │  (Kimi/GPT)  │    │  (Qwen/LLaMA)│                  │
│  │              │    │              │                  │
│  │ • 复杂任务   │    │ • 日常对话   │                  │
│  │ • 长文档     │    │ • 隐私敏感   │                  │
│  │ • 备份故障   │    │ • 高频调用   │                  │
│  └──────┬───────┘    └──────┬───────┘                  │
│         │                   │                          │
│         └─────────┬─────────┘                          │
│                   │                                    │
│         ┌─────────▼─────────┐                         │
│         │   OpenClaw路由    │                         │
│         │  • 智能任务分发   │                         │
│         │  • 故障自动转移   │                         │
│         │  • 成本控制      │                         │
│         └───────────────────┘                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

5.3 成本控制策略

  1. 缓存命中: 启用OpenClaw的prompt缓存,降低50%成本
  2. 模型分级: 简单任务用轻量模型,复杂任务用大模型
  3. 本地优先: 高频任务本地处理,低频任务用API
  4. 批量处理: 聚合请求,减少API调用次数

附录

A. 模型性能基准

|-------------------|----------|---------------|------------|---------|
| 模型 | MMLU | HumanEval | C-Eval | 长文本 |
| GPT-4o | 88.7% | 90.2% | - | 128K |
| Claude 3.5 Sonnet | 88.9% | 92.0% | - | 200K |
| Kimi K2.5 | 87.2% | 89.1% | 88.5% | 256K |
| DeepSeek-V3 | 87.1% | 92.2% | 86.5% | 64K |
| Qwen2.5-72B | 86.1% | 86.2% | 89.2% | 128K |
| Llama 3.1 70B | 86.0% | 80.5% | 67.5% | 128K |

B. 相关链接


文档结束

相关推荐
一个帅气昵称啊2 小时前
.Net基于AgentFramework中智能体Agent Skill集成Shell命令实现小龙虾mini版
ai·c#·.net·openclaw
脱脱克克2 小时前
OpenClaw Cron 完全指南:解锁 AI 智能体的定时自动化超能力
人工智能·自动化·openclaw
AC赳赳老秦2 小时前
OpenClaw核心命令详解(常用指令+实战示例,高效开启自动化工作)
大数据·运维·人工智能·自动化·ai-native·deepseek·openclaw
蜡台2 小时前
整合一些 免费甚至无限量token平台,方便OpenClaw 使用,及一些相关使用配置代码
nvidia·token·ollama·openrouter·openclaw·龙虾
蓝队云计算2 小时前
部署OpenClaw选什么服务器?2核4G+10M带宽配置的蓝队云服务器轻松搞定!
运维·服务器·人工智能·云服务器·openclaw
心中有国也有家2 小时前
OpenClaw 常见问题完全排查指南:从安装到卸载的全流程解决方案
网络·openclaw
Shi_haoliu2 小时前
FRP + Caddy 域名HTTPS配置指南
服务器·frp·caddy·openclaw
追雨潮2 小时前
OpenClaw 完整部署指南(Ubuntu + 阿里云海外版)+ 飞书接入 + 2026.3.x 权限修复--新手教程
ubuntu·阿里云·飞书·openclaw
uesowys4 小时前
腾讯云使用OpenClaw搭建企业微信AI助手
人工智能·企业微信·腾讯云·openclaw