OpenClaw 大语言模型接入指南

一、在线模型 (Cloud APIs)

1.1 主流商业模型概览

|---------------|-------------------|----------|-----------|----------|----------------|
| 供应商 | 模型 | 擅长领域 | 上下文长度 | 中文支持 | OpenClaw支持 |
| Moonshot | kimi-coding/k2p5 | 代码生成、长文本 | 256K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| Moonshot | kimi-chat | 通用对话、长文本 | 200K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| OpenAI | GPT-4o | 通用、多模态 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | GPT-4o-mini | 轻量级通用 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | o1/o3 | 推理、数学 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3.5 Sonnet | 代码、分析 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3 Opus | 复杂任务 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Pro | 多模态、长文本 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Flash | 快速响应 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-V3 | 代码、推理 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-R1 | 推理专项 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Max | 通用、代码 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Coder | 代码专项 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| 01.AI | Yi-Lightning | 通用对话 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Zhipu | GLM-4 | 通用、Agent | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |

1.2 详细模型分析

1.2.1 Moonshot (Kimi)

模型系列:

kimi-coding/k2p5 - 编程专用模型
kimi-chat - 通用对话模型

核心优势:

✅ 超长上下文: 支持200K-256K tokens，适合长文档分析
✅ 中文优化: 国内团队，中文理解和生成能力顶尖
✅ 代码能力: Kimi Coding在代码生成和调试上表现优异
✅ 文件处理: 支持直接上传PDF、Word、代码文件分析

适用场景:

长文档分析、论文阅读
代码生成、代码审查
中文内容创作
知识库问答

收费参考 (2026.03):

|------------------|------------------|------------------|-----------|
| 模型 | Input | Output | 备注 |
| kimi-coding/k2p5 | ¥0.012/1K tokens | ¥0.048/1K tokens | 缓存命中50%折扣 |
| kimi-chat | ¥0.012/1K tokens | ¥0.048/1K tokens | - |

OpenClaw配置:

复制代码

models:
  kimi-coding:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1

1.2.2 OpenAI

模型系列:

gpt-4o - 旗舰多模态模型
gpt-4o-mini - 轻量高速版
o1 / o3 - 推理专用模型（思维链）

核心优势:

✅ 多模态: 支持文本、图像、音频输入
✅ 工具调用: Function Calling能力顶尖
✅ 生态系统: 最完善的API生态和文档
✅ o系列推理: 在数学、逻辑推理上表现突出

适用场景:

多模态应用（图像理解+生成）
复杂工具调用和Agent系统
需要最强推理能力的任务
国际化产品

收费参考:

|-------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| GPT-4o | $2.50/1M tokens |$ 10/1M tokens | - |
| GPT-4o-mini | $0.15/1M tokens |$ 0.60/1M tokens | 高性价比 |
| o1 | $15/1M tokens |$ 60/1M tokens | 推理成本高 |
| o3-mini | $1.10/1M tokens |$ 4.40/1M tokens | 轻量推理 |

OpenClaw配置:

复制代码

models:
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1

1.2.3 Anthropic (Claude)

模型系列:

claude-3-5-sonnet-20241022 - 平衡型
claude-3-opus-20240229 - 最强能力
claude-3-haiku - 轻量快速

核心优势:

✅ 代码能力: 在代码理解和生成上业界顶尖
✅ 长上下文: 200K上下文，适合复杂分析
✅ 安全性: 对有害请求拒绝率较高
✅ Artifacts: 支持生成复杂文档和代码预览

适用场景:

复杂代码生成和重构
长文档深度分析
需要高安全性的应用
技术写作

收费参考:

|-------------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Claude 3.5 Sonnet | $3/1M tokens |$ 15/1M tokens | - |
| Claude 3 Opus | $15/1M tokens |$ 75/1M tokens | 最贵但最强 |
| Claude 3 Haiku | $0.25/1M tokens |$ 1.25/1M tokens | 轻量 |

OpenClaw配置:

复制代码

models:
  claude-sonnet:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1

1.2.4 Google (Gemini)

模型系列:

gemini-2.0-pro-exp-02-05 - 专业版
gemini-2.0-flash - 快速版
gemini-2.0-flash-lite - 轻量版

核心优势:

✅ 超长上下文: 1M tokens（业界最长）
✅ 多模态原生: 从底层设计支持图文音视频
✅ 免费额度: generous免费 tier
✅ Google生态: 与Google服务深度整合

适用场景:

超长文档分析（整本书、代码库）
视频内容理解
与Google服务结合的应用
成本敏感的长文本任务

收费参考:

|-----------------------|-------------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Gemini 2.0 Pro | $1.25/1M tokens |$ 5/1M tokens | 视频额外计费 |
| Gemini 2.0 Flash | $0.075/1M tokens |$ 0.30/1M tokens | 性价比极高 |
| Gemini 2.0 Flash-Lite | $0.0375/1M tokens |$ 0.15/1M tokens | 最低成本 |

OpenClaw配置:

复制代码

models:
  gemini-pro:
    provider: google
    model: gemini-2.0-pro-exp-02-05
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta

1.2.5 DeepSeek

模型系列:

deepseek-chat (V3) - 通用对话
deepseek-reasoner (R1) - 推理专用

核心优势:

✅ 性价比极高: 价格远低于GPT-4，性能接近
✅ 中文优化: 国内团队，中文理解优秀
✅ 开源生态: 部分模型开源，可本地部署
✅ R1推理: 媲美o1的推理能力，价格1/20

适用场景:

成本敏感的通用任务
需要推理能力的数学/逻辑任务
中文场景优先的应用
预算有限的初创项目

收费参考:

|-------------|------------------|------------------|------------|
| 模型 | Input | Output | 备注 |
| DeepSeek-V3 | ¥0.002/1K tokens | ¥0.008/1K tokens | 缓存命中¥0.001 |
| DeepSeek-R1 | ¥0.004/1K tokens | ¥0.016/1K tokens | 推理模型 |

OpenClaw配置:

复制代码

models:
  deepseek-v3:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1

1.2.6 阿里巴巴 (Qwen)

模型系列:

qwen-max / qwen-plus / qwen-turbo - 通用系列
qwen-coder-plus - 代码专用
qwen-vl-max - 多模态视觉

核心优势:

✅ 中文顶尖: 中文理解和生成能力国内最强
✅ 开源生态: Qwen2.5系列全面开源
✅ 多模态: VL系列视觉理解能力强
✅ 阿里云: 国内访问稳定

适用场景:

中文NLP任务
阿里云生态应用
需要开源模型微调的场景
企业级中文应用

收费参考:

|------------|-------------------|------------------|--------|
| 模型 | Input | Output | 备注 |
| Qwen-Max | ¥0.02/1K tokens | ¥0.06/1K tokens | 最强 |
| Qwen-Plus | ¥0.0008/1K tokens | ¥0.002/1K tokens | 性价比 |
| Qwen-Coder | ¥0.002/1K tokens | ¥0.006/1K tokens | 代码 |

OpenClaw配置:

复制代码

models:
  qwen-max:
    provider: openai-compatible
    model: qwen-max
    api_key: ${DASHSCOPE_API_KEY}
    base_url: https://dashscope.aliyuncs.com/compatible-mode/v1

1.3 在线模型收费对比总表

|---------------|-------------------|-----------|----------|-----------|
| 供应商 | 模型 | 输入价格 | 输出价格 | 性价比评分 |
| Moonshot | Kimi K2.5 | ¥12/1M | ¥48/1M | ⭐⭐⭐⭐ |
| OpenAI | GPT-4o | $2.5/1M |$ 10/1M | ⭐⭐⭐ |
| OpenAI | GPT-4o-mini | $0.15/1M |$ 0.6/1M | ⭐⭐⭐⭐⭐ |
| Anthropic | Claude 3.5 Sonnet | $3/1M |$ 15/1M | ⭐⭐⭐ |
| Google | Gemini 2.0 Flash | $0.075/1M |$ 0.3/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | V3 | ¥2/1M | ¥8/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | R1 | ¥4/1M | ¥16/1M | ⭐⭐⭐⭐⭐ |
| Alibaba | Qwen-Plus | ¥0.8/1M | ¥2/1M | ⭐⭐⭐⭐ |
| 01.AI | Yi-Lightning | ¥0.99/1M | ¥0.99/1M | ⭐⭐⭐⭐ |

💡 价格提示: 1M tokens ≈ 750,000个英文单词 ≈ 500,000个中文字符

二、本地模型 (Local/On-Premise)

2.1 主流本地模型概览

|-----------------|----------------|-----------------|----------|---------------|----------------|
| 模型 | 参数规模 | 硬件要求 | 擅长领域 | 许可证 | OpenClaw支持 |
| Llama 3 | 8B/70B | 16GB/80GB+ VRAM | 通用对话 | Llama 3.1 | ✅ Ollama/vLLM |
| Qwen2.5 | 7B/14B/32B/72B | 16GB-160GB VRAM | 中文、代码 | Apache 2.0 | ✅ Ollama/vLLM |
| DeepSeek-V3 | 671B (MoE) | 多卡A100 | 代码、推理 | DeepSeek | ✅ vLLM/ollama |
| Mistral | 7B/8x7B/8x22B | 16GB-160GB VRAM | 通用、推理 | Apache 2.0 | ✅ Ollama/vLLM |
| Gemma | 2B/4B/9B/27B | 8GB-48GB VRAM | 轻量通用 | Gemma | ✅ Ollama |
| CodeLlama | 7B/13B/34B | 16GB-80GB VRAM | 代码生成 | Llama 2 | ✅ Ollama |
| Phi-4 | 14B | 32GB VRAM | 推理、数学 | MIT | ✅ Ollama |
| Yi-1.5 | 6B/9B/34B | 16GB-80GB VRAM | 中文、双语 | Apache 2.0 | ✅ Ollama |
| GLM-4 | 9B | 24GB VRAM | 中文Agent | Model License | ✅ vLLM |

2.2 详细本地模型分析

2.2.1 Meta Llama 3/3.1

模型规格:

llama3.1:8b - 80亿参数，消费级GPU可跑
llama3.1:70b - 700亿参数，需要大显存
llama3.1:405b - 4050亿参数，企业级集群

核心优势:

✅ 英语能力顶尖: 英语理解和生成能力开源最强
✅ 工具调用: 原生支持Function Calling
✅ 生态完善: HuggingFace生态支持最好
✅ 许可证友好: 允许商用（需遵守Llama 3.1许可）

硬件需求:

|--------|----------|-------------------|--------|
| 模型 | 显存需求 | 推荐GPU | 量化 |
| 8B | 16GB | RTX 4090 / A4000 | Q4/Q8 |
| 70B | 80GB | A100 80GB / 2xA40 | Q4 |
| 405B | 500GB+ | 8xA100集群 | Q4 |

适用场景:

英语为主的私有部署
需要工具调用的Agent系统
数据隐私要求高的场景
长期运行的服务

OpenClaw配置 (Ollama):

复制代码

models:
  llama3.1-local:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434

2.2.2 Alibaba Qwen2.5

模型规格:

qwen2.5:7b - 轻量中文模型
qwen2.5:14b - 平衡型
qwen2.5:32b - 高性能
qwen2.5:72b - 中文最强开源
qwen2.5-coder:14b - 代码专用

核心优势:

✅ 中文最强开源: 中文理解和生成能力开源模型顶尖
✅ 长上下文: 支持128K上下文
✅ 代码能力: Coder版本代码能力接近GPT-4
✅ 工具调用: 支持Function Calling
✅ 完全开源: Apache 2.0许可证，可商用

硬件需求:

|--------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| 7B | 16GB | RTX 4090 |
| 14B | 32GB | A6000 / A100 40GB |
| 32B | 64GB | A100 80GB |
| 72B | 160GB | 2xA100 80GB |

适用场景:

中文为主的私有部署
需要长上下文的中文应用
代码生成和审查
企业级中文Agent

OpenClaw配置:

复制代码

models:
  qwen2.5-local:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434

2.2.3 DeepSeek (本地部署)

模型规格:

deepseek-v3 (671B MoE) - 专家混合模型
deepseek-r1 - 推理专用

核心优势:

✅ 性能顶尖: 媲美GPT-4的开源模型
✅ 推理能力: R1版本推理能力接近o1
✅ 成本优势: 本地部署长期使用成本低
✅ 开源可商用: 允许商用部署

硬件需求 (DeepSeek-V3):

|--------|----------|---------------|
| 配置 | 显存需求 | 说明 |
| FP8完整版 | 800GB+ | 需16xA100/H100 |
| INT8量化 | 400GB+ | 需8xA100 80GB |
| INT4量化 | 200GB+ | 需4xA100 80GB |

⚠️ 注意: DeepSeek-V3需要专业级GPU集群，个人用户建议使用API

适用场景:

大型企业的私有化部署
需要GPT-4级别能力但数据不出域
高并发的生产环境
长期使用成本优化

OpenClaw配置 (vLLM):

复制代码

models:
  deepseek-local:
    provider: openai-compatible
    model: deepseek-ai/DeepSeek-V3
    base_url: http://localhost:8000/v1

2.2.4 Mistral AI

模型规格:

mistral:7b - 轻量高效
mixtral:8x7b - MoE专家混合
mixtral:8x22b - 大MoE模型

核心优势:

✅ 高效推理: 7B参数达到13B性能
✅ MoE架构: 稀疏专家混合，推理成本低
✅ 欧洲团队: GDPR合规性好
✅ Apache 2.0: 完全开源可商用

硬件需求:

|---------------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Mistral 7B | 16GB | RTX 4090 |
| Mixtral 8x7B | 48GB | A6000 / A100 40GB |
| Mixtral 8x22B | 140GB | 2xA100 80GB |

适用场景:

高效推理需求的场景
欧洲合规要求
需要MoE架构的应用

OpenClaw配置:

复制代码

models:
  mixtral-local:
    provider: ollama
    model: mixtral:8x7b
    base_url: http://localhost:11434

2.2.5 微软 Phi-4

模型规格:

phi4:14b - 140亿参数

核心优势:

✅ 小模型大能力: 14B参数达到70B性能
✅ 推理能力: 数学和逻辑推理出色
✅ MIT许可证: 最宽松的开源许可
✅ 微软生态: 与Azure/Microsoft工具集成

硬件需求:

|-----------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Phi-4 14B | 32GB | A100 40GB / A6000 |

适用场景:

推理密集型任务
数学计算和代码生成
需要小体积高性能的场景

OpenClaw配置:

复制代码

models:
  phi4-local:
    provider: ollama
    model: phi4:14b
    base_url: http://localhost:11434

2.3 本地模型部署工具

|-------------------------------|---------------|----------------|------------|
| 工具 | 特点 | OpenClaw支持 | 适用场景 |
| Ollama | 最简单，一键运行 | ✅ 原生支持 | 个人/小团队 |
| vLLM | 高吞吐，生产级 | ✅ API兼容 | 企业/高并发 |
| llama.cpp | 纯CPU运行，无GPU | ✅ API兼容 | 无显卡环境 |
| TensorRT-LLM | NVIDIA优化，最快 | ✅ API兼容 | NVIDIA GPU |
| Text Generation Inference | HuggingFace官方 | ✅ API兼容 | HF生态 |

Ollama 配置示例

复制代码

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull qwen2.5:14b
ollama pull llama3.1:8b

# 运行服务
ollama serve

# OpenClaw配置
models:
  ollama-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    
  ollama-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434

vLLM 配置示例

复制代码

# 安装vLLM
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 32768

# OpenClaw配置
models:
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1

三、在线 vs 本地对比

3.1 综合对比表

|----------|---------------|---------------|
| 维度 | 在线模型 | 本地模型 |
| 成本模式 | 按量付费，无固定成本 | 前期硬件投入，后期低成本 |
| 响应延迟 | 网络依赖，50-500ms | 本地计算，10-100ms |
| 数据隐私 | 数据上传云端 | 数据完全不出域 |
| 可用性 | 依赖供应商服务 | 完全自主可控 |
| 模型选择 | 供应商限定 | 任意开源模型 |
| 定制能力 | 有限（Prompt工程） | 可微调、可量化 |
| 扩展性 | 弹性扩缩容 | 受硬件限制 |
| 维护成本 | 低 | 高（需运维） |
| 离线使用 | ❌ 不可 | ✅ 可 |

3.2 成本对比分析

场景：月消耗100M tokens（约7500万字）

|---------------------|----------------|------------------|
| 方案 | 月成本 | 说明 |
| GPT-4o API | $350 (约¥2,500) | 按量付费 |
| DeepSeek-V3 API | ¥200 | 最便宜的API方案 |
| 本地 4090 | ¥0 (电费~¥100) | 硬件成本¥15,000(一次性) |
| 本地 A100 | ¥0 (电费~¥500) | 硬件成本¥80,000(一次性) |

成本平衡点:

月消耗 > 50M tokens：本地部署开始划算
月消耗 > 200M tokens：本地部署显著节省

3.3 性能对比

|----------|----------|-----------------|
| 指标 | 在线模型 | 本地模型 (量化) |
| 推理速度 | 快 (专业优化) | 中等 (依赖硬件) |
| 输出质量 | 最优 | 接近 (Q4量化损失<5%) |
| 并发能力 | 高 | 受显存限制 |
| 长上下文 | 支持 | 受显存限制 |

3.4 选择决策树

复制代码

是否需要数据不出域？
├── 是 → 本地部署
│       └── 硬件预算？
│           ├── <¥5,000 → Ollama + Qwen2.5:7B / Llama3.1:8B
│           ├── ¥5,000-20,000 → RTX 4090 + Qwen2.5:14B
│           ├── ¥20,000-80,000 → A100 40GB + Qwen2.5:72B
│           └── >¥100,000 → 多卡A100 + DeepSeek-V3
│
└── 否 → 使用在线API
        └── 预算？
            ├── 极紧 → DeepSeek-V3 / Gemini Flash
            ├── 一般 → Kimi / Qwen-Plus
            ├── 充足 → GPT-4o / Claude 3.5
            └── 无限 → GPT-4o / Claude 3 Opus + 本地备份

四、OpenClaw 接入配置

4.1 完整配置示例

复制代码

# ~/.openclaw/config.yaml

models:
  # ========== 在线模型 ==========
  
  # Moonshot Kimi (推荐中文、代码)
  kimi:
    provider: kimi-coding
    model: k2p5
    api_key: ${KIMI_API_KEY}
    base_url: https://api.moonshot.cn/v1
    priority: 1
  
  # OpenAI GPT-4o (推荐多模态、工具调用)
  gpt-4o:
    provider: openai
    model: gpt-4o
    api_key: ${OPENAI_API_KEY}
    base_url: https://api.openai.com/v1
    priority: 2
  
  # Anthropic Claude (推荐代码、分析)
  claude:
    provider: anthropic
    model: claude-3-5-sonnet-20241022
    api_key: ${ANTHROPIC_API_KEY}
    base_url: https://api.anthropic.com/v1
    priority: 3
  
  # DeepSeek (推荐性价比)
  deepseek:
    provider: openai-compatible
    model: deepseek-chat
    api_key: ${DEEPSEEK_API_KEY}
    base_url: https://api.deepseek.com/v1
    priority: 4
  
  # Google Gemini (推荐长文本)
  gemini:
    provider: google
    model: gemini-2.0-flash
    api_key: ${GOOGLE_API_KEY}
    base_url: https://generativelanguage.googleapis.com/v1beta
    priority: 5
  
  # ========== 本地模型 ==========
  
  # Ollama本地模型
  local-qwen:
    provider: ollama
    model: qwen2.5:14b
    base_url: http://localhost:11434
    priority: 10
  
  local-llama:
    provider: ollama
    model: llama3.1:8b
    base_url: http://localhost:11434
    priority: 11
  
  # vLLM本地服务
  vllm-qwen:
    provider: openai-compatible
    model: Qwen/Qwen2.5-14B-Instruct
    base_url: http://localhost:8000/v1
    priority: 12

# 默认模型
default_model: kimi

# 路由策略
routing:
  # 根据任务类型选择模型
  task_routing:
    code: kimi          # 代码任务用Kimi
    long_context: gemini # 长文本用Gemini
    analysis: claude    # 分析任务用Claude
    default: kimi       # 默认用Kimi
  
  # 故障转移
  fallback:
    - kimi
    - deepseek
    - local-qwen

4.2 环境变量配置

复制代码

# 添加到 ~/.bashrc 或 ~/.zshrc

# Moonshot Kimi
export KIMI_API_KEY="sk-xxxxxxxxxx"

# OpenAI
export OPENAI_API_KEY="sk-xxxxxxxxxx"

# Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxx"

# DeepSeek
export DEEPSEEK_API_KEY="sk-xxxxxxxxxx"

# Google
export GOOGLE_API_KEY="xxxxxxxxxx"

# 阿里云
export DASHSCOPE_API_KEY="sk-xxxxxxxxxx"

4.3 快速切换模型

复制代码

# 命令行切换
openclaw config set default_model gpt-4o
openclaw config set default_model local-qwen

# 会话中临时切换
/model kimi
/model local-qwen

五、选型建议

5.1 按场景推荐

场景1: 个人开发者/小团队

推荐 : kimi-coding/k2p5 + qwen2.5:14b (本地)

在线：Kimi处理复杂任务
本地：Qwen14B处理日常任务，保护隐私
成本：¥0-500/月

场景2: 中文内容创作团队

推荐 : kimi-chat + qwen2.5:72b (本地)

在线：Kimi长文档分析
本地：Qwen72B批量生成
成本：¥500-2000/月 + 硬件投入

场景3: 代码生成工具

推荐 : claude-3-5-sonnet + deepseek-coder:33b (本地)

在线：Claude处理复杂重构
本地：DeepSeek Coder日常补全
成本：$100-300/月 + 硬件投入

场景4: 企业私有部署

推荐 : qwen2.5:72b / deepseek-v3 (本地)

完全数据不出域
高并发vLLM部署
成本：硬件投入¥20万-100万，后期¥1000/月电费

场景5: 多模态应用

5.2 混合架构建议

复制代码

┌─────────────────────────────────────────────────────────┐
│                    混合架构最佳实践                        │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌──────────────┐    ┌──────────────┐                  │
│  │   在线API    │    │   本地模型    │                  │
│  │  (Kimi/GPT)  │    │  (Qwen/LLaMA)│                  │
│  │              │    │              │                  │
│  │ • 复杂任务   │    │ • 日常对话   │                  │
│  │ • 长文档     │    │ • 隐私敏感   │                  │
│  │ • 备份故障   │    │ • 高频调用   │                  │
│  └──────┬───────┘    └──────┬───────┘                  │
│         │                   │                          │
│         └─────────┬─────────┘                          │
│                   │                                    │
│         ┌─────────▼─────────┐                         │
│         │   OpenClaw路由    │                         │
│         │  • 智能任务分发   │                         │
│         │  • 故障自动转移   │                         │
│         │  • 成本控制      │                         │
│         └───────────────────┘                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

5.3 成本控制策略

缓存命中: 启用OpenClaw的prompt缓存，降低50%成本
模型分级: 简单任务用轻量模型，复杂任务用大模型
本地优先: 高频任务本地处理，低频任务用API
批量处理: 聚合请求，减少API调用次数

附录

A. 模型性能基准

|-------------------|----------|---------------|------------|---------|
| 模型 | MMLU | HumanEval | C-Eval | 长文本 |
| GPT-4o | 88.7% | 90.2% | - | 128K |
| Claude 3.5 Sonnet | 88.9% | 92.0% | - | 200K |
| Kimi K2.5 | 87.2% | 89.1% | 88.5% | 256K |
| DeepSeek-V3 | 87.1% | 92.2% | 86.5% | 64K |
| Qwen2.5-72B | 86.1% | 86.2% | 89.2% | 128K |
| Llama 3.1 70B | 86.0% | 80.5% | 67.5% | 128K |

B. 相关链接

OpenClaw文档: https://docs.openclaw.ai
Ollama模型库: https://ollama.com/library
HuggingFace: https://huggingface.co/models
vLLM文档: https://docs.vllm.ai

文档结束

OpenClaw 大语言模型接入指南

目录

一、在线模型 (Cloud APIs)

1.1 主流商业模型概览

1.2 详细模型分析

1.2.1 Moonshot (Kimi)

1.2.2 OpenAI

1.2.3 Anthropic (Claude)

1.2.4 Google (Gemini)

1.2.5 DeepSeek

1.2.6 阿里巴巴 (Qwen)

1.3 在线模型收费对比总表

二、本地模型 (Local/On-Premise)

2.1 主流本地模型概览

2.2 详细本地模型分析

2.2.1 Meta Llama 3/3.1

2.2.2 Alibaba Qwen2.5

2.2.3 DeepSeek (本地部署)

2.2.4 Mistral AI

2.2.5 微软 Phi-4

2.3 本地模型部署工具

Ollama 配置示例

vLLM 配置示例

三、在线 vs 本地对比

3.1 综合对比表

3.2 成本对比分析

场景：月消耗100M tokens（约7500万字）

3.3 性能对比

3.4 选择决策树

四、OpenClaw 接入配置

4.1 完整配置示例

4.2 环境变量配置

4.3 快速切换模型

五、选型建议

5.1 按场景推荐

场景1: 个人开发者/小团队

场景2: 中文内容创作团队

场景3: 代码生成工具

场景4: 企业私有部署

场景5: 多模态应用

5.2 混合架构建议

5.3 成本控制策略

附录

A. 模型性能基准

B. 相关链接