目录
一、在线模型 (Cloud APIs)
1.1 主流商业模型概览
|---------------|-------------------|----------|-----------|----------|----------------|
| 供应商 | 模型 | 擅长领域 | 上下文长度 | 中文支持 | OpenClaw支持 |
| Moonshot | kimi-coding/k2p5 | 代码生成、长文本 | 256K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| Moonshot | kimi-chat | 通用对话、长文本 | 200K | ⭐⭐⭐⭐⭐ | ✅ 原生支持 |
| OpenAI | GPT-4o | 通用、多模态 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | GPT-4o-mini | 轻量级通用 | 128K | ⭐⭐⭐⭐ | ✅ API兼容 |
| OpenAI | o1/o3 | 推理、数学 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3.5 Sonnet | 代码、分析 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Anthropic | Claude 3 Opus | 复杂任务 | 200K | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Pro | 多模态、长文本 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| Google | Gemini 2.0 Flash | 快速响应 | 1M | ⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-V3 | 代码、推理 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| DeepSeek | DeepSeek-R1 | 推理专项 | 64K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Max | 通用、代码 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Alibaba | Qwen2.5-Coder | 代码专项 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| 01.AI | Yi-Lightning | 通用对话 | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
| Zhipu | GLM-4 | 通用、Agent | 128K | ⭐⭐⭐⭐⭐ | ✅ API兼容 |
1.2 详细模型分析
1.2.1 Moonshot (Kimi)
模型系列:
kimi-coding/k2p5- 编程专用模型kimi-chat- 通用对话模型
核心优势:
- ✅ 超长上下文: 支持200K-256K tokens,适合长文档分析
- ✅ 中文优化: 国内团队,中文理解和生成能力顶尖
- ✅ 代码能力: Kimi Coding在代码生成和调试上表现优异
- ✅ 文件处理: 支持直接上传PDF、Word、代码文件分析
适用场景:
- 长文档分析、论文阅读
- 代码生成、代码审查
- 中文内容创作
- 知识库问答
收费参考 (2026.03):
|------------------|------------------|------------------|-----------|
| 模型 | Input | Output | 备注 |
| kimi-coding/k2p5 | ¥0.012/1K tokens | ¥0.048/1K tokens | 缓存命中50%折扣 |
| kimi-chat | ¥0.012/1K tokens | ¥0.048/1K tokens | - |
OpenClaw配置:
models:
kimi-coding:
provider: kimi-coding
model: k2p5
api_key: ${KIMI_API_KEY}
base_url: https://api.moonshot.cn/v1
1.2.2 OpenAI
模型系列:
gpt-4o- 旗舰多模态模型gpt-4o-mini- 轻量高速版o1/o3- 推理专用模型(思维链)
核心优势:
- ✅ 多模态: 支持文本、图像、音频输入
- ✅ 工具调用: Function Calling能力顶尖
- ✅ 生态系统: 最完善的API生态和文档
- ✅ o系列推理: 在数学、逻辑推理上表现突出
适用场景:
- 多模态应用(图像理解+生成)
- 复杂工具调用和Agent系统
- 需要最强推理能力的任务
- 国际化产品
收费参考:
|-------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| GPT-4o | 2.50/1M tokens | 10/1M tokens | - |
| GPT-4o-mini | 0.15/1M tokens | 0.60/1M tokens | 高性价比 |
| o1 | 15/1M tokens | 60/1M tokens | 推理成本高 |
| o3-mini | 1.10/1M tokens | 4.40/1M tokens | 轻量推理 |
OpenClaw配置:
models:
gpt-4o:
provider: openai
model: gpt-4o
api_key: ${OPENAI_API_KEY}
base_url: https://api.openai.com/v1
1.2.3 Anthropic (Claude)
模型系列:
claude-3-5-sonnet-20241022- 平衡型claude-3-opus-20240229- 最强能力claude-3-haiku- 轻量快速
核心优势:
- ✅ 代码能力: 在代码理解和生成上业界顶尖
- ✅ 长上下文: 200K上下文,适合复杂分析
- ✅ 安全性: 对有害请求拒绝率较高
- ✅ Artifacts: 支持生成复杂文档和代码预览
适用场景:
- 复杂代码生成和重构
- 长文档深度分析
- 需要高安全性的应用
- 技术写作
收费参考:
|-------------------|-----------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Claude 3.5 Sonnet | 3/1M tokens | 15/1M tokens | - |
| Claude 3 Opus | 15/1M tokens | 75/1M tokens | 最贵但最强 |
| Claude 3 Haiku | 0.25/1M tokens | 1.25/1M tokens | 轻量 |
OpenClaw配置:
models:
claude-sonnet:
provider: anthropic
model: claude-3-5-sonnet-20241022
api_key: ${ANTHROPIC_API_KEY}
base_url: https://api.anthropic.com/v1
1.2.4 Google (Gemini)
模型系列:
gemini-2.0-pro-exp-02-05- 专业版gemini-2.0-flash- 快速版gemini-2.0-flash-lite- 轻量版
核心优势:
- ✅ 超长上下文: 1M tokens(业界最长)
- ✅ 多模态原生: 从底层设计支持图文音视频
- ✅ 免费额度: generous免费 tier
- ✅ Google生态: 与Google服务深度整合
适用场景:
- 超长文档分析(整本书、代码库)
- 视频内容理解
- 与Google服务结合的应用
- 成本敏感的长文本任务
收费参考:
|-----------------------|-------------------|-----------------|--------|
| 模型 | Input | Output | 备注 |
| Gemini 2.0 Pro | 1.25/1M tokens | 5/1M tokens | 视频额外计费 |
| Gemini 2.0 Flash | 0.075/1M tokens | 0.30/1M tokens | 性价比极高 |
| Gemini 2.0 Flash-Lite | 0.0375/1M tokens | 0.15/1M tokens | 最低成本 |
OpenClaw配置:
models:
gemini-pro:
provider: google
model: gemini-2.0-pro-exp-02-05
api_key: ${GOOGLE_API_KEY}
base_url: https://generativelanguage.googleapis.com/v1beta
1.2.5 DeepSeek
模型系列:
deepseek-chat(V3) - 通用对话deepseek-reasoner(R1) - 推理专用
核心优势:
- ✅ 性价比极高: 价格远低于GPT-4,性能接近
- ✅ 中文优化: 国内团队,中文理解优秀
- ✅ 开源生态: 部分模型开源,可本地部署
- ✅ R1推理: 媲美o1的推理能力,价格1/20
适用场景:
- 成本敏感的通用任务
- 需要推理能力的数学/逻辑任务
- 中文场景优先的应用
- 预算有限的初创项目
收费参考:
|-------------|------------------|------------------|------------|
| 模型 | Input | Output | 备注 |
| DeepSeek-V3 | ¥0.002/1K tokens | ¥0.008/1K tokens | 缓存命中¥0.001 |
| DeepSeek-R1 | ¥0.004/1K tokens | ¥0.016/1K tokens | 推理模型 |
OpenClaw配置:
models:
deepseek-v3:
provider: openai-compatible
model: deepseek-chat
api_key: ${DEEPSEEK_API_KEY}
base_url: https://api.deepseek.com/v1
1.2.6 阿里巴巴 (Qwen)
模型系列:
qwen-max/qwen-plus/qwen-turbo- 通用系列qwen-coder-plus- 代码专用qwen-vl-max- 多模态视觉
核心优势:
- ✅ 中文顶尖: 中文理解和生成能力国内最强
- ✅ 开源生态: Qwen2.5系列全面开源
- ✅ 多模态: VL系列视觉理解能力强
- ✅ 阿里云: 国内访问稳定
适用场景:
- 中文NLP任务
- 阿里云生态应用
- 需要开源模型微调的场景
- 企业级中文应用
收费参考:
|------------|-------------------|------------------|--------|
| 模型 | Input | Output | 备注 |
| Qwen-Max | ¥0.02/1K tokens | ¥0.06/1K tokens | 最强 |
| Qwen-Plus | ¥0.0008/1K tokens | ¥0.002/1K tokens | 性价比 |
| Qwen-Coder | ¥0.002/1K tokens | ¥0.006/1K tokens | 代码 |
OpenClaw配置:
models:
qwen-max:
provider: openai-compatible
model: qwen-max
api_key: ${DASHSCOPE_API_KEY}
base_url: https://dashscope.aliyuncs.com/compatible-mode/v1
1.3 在线模型收费对比总表
|---------------|-------------------|-----------|----------|-----------|
| 供应商 | 模型 | 输入价格 | 输出价格 | 性价比评分 |
| Moonshot | Kimi K2.5 | ¥12/1M | ¥48/1M | ⭐⭐⭐⭐ |
| OpenAI | GPT-4o | 2.5/1M | 10/1M | ⭐⭐⭐ |
| OpenAI | GPT-4o-mini | 0.15/1M | 0.6/1M | ⭐⭐⭐⭐⭐ |
| Anthropic | Claude 3.5 Sonnet | 3/1M | 15/1M | ⭐⭐⭐ |
| Google | Gemini 2.0 Flash | 0.075/1M | 0.3/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | V3 | ¥2/1M | ¥8/1M | ⭐⭐⭐⭐⭐ |
| DeepSeek | R1 | ¥4/1M | ¥16/1M | ⭐⭐⭐⭐⭐ |
| Alibaba | Qwen-Plus | ¥0.8/1M | ¥2/1M | ⭐⭐⭐⭐ |
| 01.AI | Yi-Lightning | ¥0.99/1M | ¥0.99/1M | ⭐⭐⭐⭐ |
💡 价格提示: 1M tokens ≈ 750,000个英文单词 ≈ 500,000个中文字符
二、本地模型 (Local/On-Premise)
2.1 主流本地模型概览
|-----------------|----------------|-----------------|----------|---------------|----------------|
| 模型 | 参数规模 | 硬件要求 | 擅长领域 | 许可证 | OpenClaw支持 |
| Llama 3 | 8B/70B | 16GB/80GB+ VRAM | 通用对话 | Llama 3.1 | ✅ Ollama/vLLM |
| Qwen2.5 | 7B/14B/32B/72B | 16GB-160GB VRAM | 中文、代码 | Apache 2.0 | ✅ Ollama/vLLM |
| DeepSeek-V3 | 671B (MoE) | 多卡A100 | 代码、推理 | DeepSeek | ✅ vLLM/ollama |
| Mistral | 7B/8x7B/8x22B | 16GB-160GB VRAM | 通用、推理 | Apache 2.0 | ✅ Ollama/vLLM |
| Gemma | 2B/4B/9B/27B | 8GB-48GB VRAM | 轻量通用 | Gemma | ✅ Ollama |
| CodeLlama | 7B/13B/34B | 16GB-80GB VRAM | 代码生成 | Llama 2 | ✅ Ollama |
| Phi-4 | 14B | 32GB VRAM | 推理、数学 | MIT | ✅ Ollama |
| Yi-1.5 | 6B/9B/34B | 16GB-80GB VRAM | 中文、双语 | Apache 2.0 | ✅ Ollama |
| GLM-4 | 9B | 24GB VRAM | 中文Agent | Model License | ✅ vLLM |
2.2 详细本地模型分析
2.2.1 Meta Llama 3/3.1
模型规格:
llama3.1:8b- 80亿参数,消费级GPU可跑llama3.1:70b- 700亿参数,需要大显存llama3.1:405b- 4050亿参数,企业级集群
核心优势:
- ✅ 英语能力顶尖: 英语理解和生成能力开源最强
- ✅ 工具调用: 原生支持Function Calling
- ✅ 生态完善: HuggingFace生态支持最好
- ✅ 许可证友好: 允许商用(需遵守Llama 3.1许可)
硬件需求:
|--------|----------|-------------------|--------|
| 模型 | 显存需求 | 推荐GPU | 量化 |
| 8B | 16GB | RTX 4090 / A4000 | Q4/Q8 |
| 70B | 80GB | A100 80GB / 2xA40 | Q4 |
| 405B | 500GB+ | 8xA100集群 | Q4 |
适用场景:
- 英语为主的私有部署
- 需要工具调用的Agent系统
- 数据隐私要求高的场景
- 长期运行的服务
OpenClaw配置 (Ollama):
models:
llama3.1-local:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
2.2.2 Alibaba Qwen2.5
模型规格:
qwen2.5:7b- 轻量中文模型qwen2.5:14b- 平衡型qwen2.5:32b- 高性能qwen2.5:72b- 中文最强开源qwen2.5-coder:14b- 代码专用
核心优势:
- ✅ 中文最强开源: 中文理解和生成能力开源模型顶尖
- ✅ 长上下文: 支持128K上下文
- ✅ 代码能力: Coder版本代码能力接近GPT-4
- ✅ 工具调用: 支持Function Calling
- ✅ 完全开源: Apache 2.0许可证,可商用
硬件需求:
|--------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| 7B | 16GB | RTX 4090 |
| 14B | 32GB | A6000 / A100 40GB |
| 32B | 64GB | A100 80GB |
| 72B | 160GB | 2xA100 80GB |
适用场景:
- 中文为主的私有部署
- 需要长上下文的中文应用
- 代码生成和审查
- 企业级中文Agent
OpenClaw配置:
models:
qwen2.5-local:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
2.2.3 DeepSeek (本地部署)
模型规格:
deepseek-v3(671B MoE) - 专家混合模型deepseek-r1- 推理专用
核心优势:
- ✅ 性能顶尖: 媲美GPT-4的开源模型
- ✅ 推理能力: R1版本推理能力接近o1
- ✅ 成本优势: 本地部署长期使用成本低
- ✅ 开源可商用: 允许商用部署
硬件需求 (DeepSeek-V3):
|--------|----------|---------------|
| 配置 | 显存需求 | 说明 |
| FP8完整版 | 800GB+ | 需16xA100/H100 |
| INT8量化 | 400GB+ | 需8xA100 80GB |
| INT4量化 | 200GB+ | 需4xA100 80GB |
⚠️ 注意: DeepSeek-V3需要专业级GPU集群,个人用户建议使用API
适用场景:
- 大型企业的私有化部署
- 需要GPT-4级别能力但数据不出域
- 高并发的生产环境
- 长期使用成本优化
OpenClaw配置 (vLLM):
models:
deepseek-local:
provider: openai-compatible
model: deepseek-ai/DeepSeek-V3
base_url: http://localhost:8000/v1
2.2.4 Mistral AI
模型规格:
mistral:7b- 轻量高效mixtral:8x7b- MoE专家混合mixtral:8x22b- 大MoE模型
核心优势:
- ✅ 高效推理: 7B参数达到13B性能
- ✅ MoE架构: 稀疏专家混合,推理成本低
- ✅ 欧洲团队: GDPR合规性好
- ✅ Apache 2.0: 完全开源可商用
硬件需求:
|---------------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Mistral 7B | 16GB | RTX 4090 |
| Mixtral 8x7B | 48GB | A6000 / A100 40GB |
| Mixtral 8x22B | 140GB | 2xA100 80GB |
适用场景:
- 高效推理需求的场景
- 欧洲合规要求
- 需要MoE架构的应用
OpenClaw配置:
models:
mixtral-local:
provider: ollama
model: mixtral:8x7b
base_url: http://localhost:11434
2.2.5 微软 Phi-4
模型规格:
phi4:14b- 140亿参数
核心优势:
- ✅ 小模型大能力: 14B参数达到70B性能
- ✅ 推理能力: 数学和逻辑推理出色
- ✅ MIT许可证: 最宽松的开源许可
- ✅ 微软生态: 与Azure/Microsoft工具集成
硬件需求:
|-----------|----------|-------------------|
| 模型 | 显存需求 | 推荐GPU |
| Phi-4 14B | 32GB | A100 40GB / A6000 |
适用场景:
- 推理密集型任务
- 数学计算和代码生成
- 需要小体积高性能的场景
OpenClaw配置:
models:
phi4-local:
provider: ollama
model: phi4:14b
base_url: http://localhost:11434
2.3 本地模型部署工具
|-------------------------------|---------------|----------------|------------|
| 工具 | 特点 | OpenClaw支持 | 适用场景 |
| Ollama | 最简单,一键运行 | ✅ 原生支持 | 个人/小团队 |
| vLLM | 高吞吐,生产级 | ✅ API兼容 | 企业/高并发 |
| llama.cpp | 纯CPU运行,无GPU | ✅ API兼容 | 无显卡环境 |
| TensorRT-LLM | NVIDIA优化,最快 | ✅ API兼容 | NVIDIA GPU |
| Text Generation Inference | HuggingFace官方 | ✅ API兼容 | HF生态 |
Ollama 配置示例
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull qwen2.5:14b
ollama pull llama3.1:8b
# 运行服务
ollama serve
# OpenClaw配置
models:
ollama-qwen:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
ollama-llama:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
vLLM 配置示例
# 安装vLLM
pip install vllm
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 32768
# OpenClaw配置
models:
vllm-qwen:
provider: openai-compatible
model: Qwen/Qwen2.5-14B-Instruct
base_url: http://localhost:8000/v1
三、在线 vs 本地对比
3.1 综合对比表
|----------|---------------|---------------|
| 维度 | 在线模型 | 本地模型 |
| 成本模式 | 按量付费,无固定成本 | 前期硬件投入,后期低成本 |
| 响应延迟 | 网络依赖,50-500ms | 本地计算,10-100ms |
| 数据隐私 | 数据上传云端 | 数据完全不出域 |
| 可用性 | 依赖供应商服务 | 完全自主可控 |
| 模型选择 | 供应商限定 | 任意开源模型 |
| 定制能力 | 有限(Prompt工程) | 可微调、可量化 |
| 扩展性 | 弹性扩缩容 | 受硬件限制 |
| 维护成本 | 低 | 高(需运维) |
| 离线使用 | ❌ 不可 | ✅ 可 |
3.2 成本对比分析
场景:月消耗100M tokens(约7500万字)
|---------------------|----------------|------------------|
| 方案 | 月成本 | 说明 |
| GPT-4o API | $350 (约¥2,500) | 按量付费 |
| DeepSeek-V3 API | ¥200 | 最便宜的API方案 |
| 本地 4090 | ¥0 (电费~¥100) | 硬件成本¥15,000(一次性) |
| 本地 A100 | ¥0 (电费~¥500) | 硬件成本¥80,000(一次性) |
成本平衡点:
- 月消耗 > 50M tokens:本地部署开始划算
- 月消耗 > 200M tokens:本地部署显著节省
3.3 性能对比
|----------|----------|-----------------|
| 指标 | 在线模型 | 本地模型 (量化) |
| 推理速度 | 快 (专业优化) | 中等 (依赖硬件) |
| 输出质量 | 最优 | 接近 (Q4量化损失<5%) |
| 并发能力 | 高 | 受显存限制 |
| 长上下文 | 支持 | 受显存限制 |
3.4 选择决策树
是否需要数据不出域?
├── 是 → 本地部署
│ └── 硬件预算?
│ ├── <¥5,000 → Ollama + Qwen2.5:7B / Llama3.1:8B
│ ├── ¥5,000-20,000 → RTX 4090 + Qwen2.5:14B
│ ├── ¥20,000-80,000 → A100 40GB + Qwen2.5:72B
│ └── >¥100,000 → 多卡A100 + DeepSeek-V3
│
└── 否 → 使用在线API
└── 预算?
├── 极紧 → DeepSeek-V3 / Gemini Flash
├── 一般 → Kimi / Qwen-Plus
├── 充足 → GPT-4o / Claude 3.5
└── 无限 → GPT-4o / Claude 3 Opus + 本地备份
四、OpenClaw 接入配置
4.1 完整配置示例
# ~/.openclaw/config.yaml
models:
# ========== 在线模型 ==========
# Moonshot Kimi (推荐中文、代码)
kimi:
provider: kimi-coding
model: k2p5
api_key: ${KIMI_API_KEY}
base_url: https://api.moonshot.cn/v1
priority: 1
# OpenAI GPT-4o (推荐多模态、工具调用)
gpt-4o:
provider: openai
model: gpt-4o
api_key: ${OPENAI_API_KEY}
base_url: https://api.openai.com/v1
priority: 2
# Anthropic Claude (推荐代码、分析)
claude:
provider: anthropic
model: claude-3-5-sonnet-20241022
api_key: ${ANTHROPIC_API_KEY}
base_url: https://api.anthropic.com/v1
priority: 3
# DeepSeek (推荐性价比)
deepseek:
provider: openai-compatible
model: deepseek-chat
api_key: ${DEEPSEEK_API_KEY}
base_url: https://api.deepseek.com/v1
priority: 4
# Google Gemini (推荐长文本)
gemini:
provider: google
model: gemini-2.0-flash
api_key: ${GOOGLE_API_KEY}
base_url: https://generativelanguage.googleapis.com/v1beta
priority: 5
# ========== 本地模型 ==========
# Ollama本地模型
local-qwen:
provider: ollama
model: qwen2.5:14b
base_url: http://localhost:11434
priority: 10
local-llama:
provider: ollama
model: llama3.1:8b
base_url: http://localhost:11434
priority: 11
# vLLM本地服务
vllm-qwen:
provider: openai-compatible
model: Qwen/Qwen2.5-14B-Instruct
base_url: http://localhost:8000/v1
priority: 12
# 默认模型
default_model: kimi
# 路由策略
routing:
# 根据任务类型选择模型
task_routing:
code: kimi # 代码任务用Kimi
long_context: gemini # 长文本用Gemini
analysis: claude # 分析任务用Claude
default: kimi # 默认用Kimi
# 故障转移
fallback:
- kimi
- deepseek
- local-qwen
4.2 环境变量配置
# 添加到 ~/.bashrc 或 ~/.zshrc
# Moonshot Kimi
export KIMI_API_KEY="sk-xxxxxxxxxx"
# OpenAI
export OPENAI_API_KEY="sk-xxxxxxxxxx"
# Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxx"
# DeepSeek
export DEEPSEEK_API_KEY="sk-xxxxxxxxxx"
# Google
export GOOGLE_API_KEY="xxxxxxxxxx"
# 阿里云
export DASHSCOPE_API_KEY="sk-xxxxxxxxxx"
4.3 快速切换模型
# 命令行切换
openclaw config set default_model gpt-4o
openclaw config set default_model local-qwen
# 会话中临时切换
/model kimi
/model local-qwen
五、选型建议
5.1 按场景推荐
场景1: 个人开发者/小团队
推荐 : kimi-coding/k2p5 + qwen2.5:14b (本地)
- 在线:Kimi处理复杂任务
- 本地:Qwen14B处理日常任务,保护隐私
- 成本:¥0-500/月
场景2: 中文内容创作团队
推荐 : kimi-chat + qwen2.5:72b (本地)
- 在线:Kimi长文档分析
- 本地:Qwen72B批量生成
- 成本:¥500-2000/月 + 硬件投入
场景3: 代码生成工具
推荐 : claude-3-5-sonnet + deepseek-coder:33b (本地)
- 在线:Claude处理复杂重构
- 本地:DeepSeek Coder日常补全
- 成本:$100-300/月 + 硬件投入
场景4: 企业私有部署
推荐 : qwen2.5:72b / deepseek-v3 (本地)
- 完全数据不出域
- 高并发vLLM部署
- 成本:硬件投入¥20万-100万,后期¥1000/月电费
场景5: 多模态应用
推荐 : gpt-4o / gemini-2.0-pro
- 图像理解 + 生成
- 视频分析
- 成本:$200-1000/月
5.2 混合架构建议
┌─────────────────────────────────────────────────────────┐
│ 混合架构最佳实践 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ 在线API │ │ 本地模型 │ │
│ │ (Kimi/GPT) │ │ (Qwen/LLaMA)│ │
│ │ │ │ │ │
│ │ • 复杂任务 │ │ • 日常对话 │ │
│ │ • 长文档 │ │ • 隐私敏感 │ │
│ │ • 备份故障 │ │ • 高频调用 │ │
│ └──────┬───────┘ └──────┬───────┘ │
│ │ │ │
│ └─────────┬─────────┘ │
│ │ │
│ ┌─────────▼─────────┐ │
│ │ OpenClaw路由 │ │
│ │ • 智能任务分发 │ │
│ │ • 故障自动转移 │ │
│ │ • 成本控制 │ │
│ └───────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
5.3 成本控制策略
- 缓存命中: 启用OpenClaw的prompt缓存,降低50%成本
- 模型分级: 简单任务用轻量模型,复杂任务用大模型
- 本地优先: 高频任务本地处理,低频任务用API
- 批量处理: 聚合请求,减少API调用次数
附录
A. 模型性能基准
|-------------------|----------|---------------|------------|---------|
| 模型 | MMLU | HumanEval | C-Eval | 长文本 |
| GPT-4o | 88.7% | 90.2% | - | 128K |
| Claude 3.5 Sonnet | 88.9% | 92.0% | - | 200K |
| Kimi K2.5 | 87.2% | 89.1% | 88.5% | 256K |
| DeepSeek-V3 | 87.1% | 92.2% | 86.5% | 64K |
| Qwen2.5-72B | 86.1% | 86.2% | 89.2% | 128K |
| Llama 3.1 70B | 86.0% | 80.5% | 67.5% | 128K |
B. 相关链接
- OpenClaw文档: https://docs.openclaw.ai
- Ollama模型库: https://ollama.com/library
- HuggingFace: https://huggingface.co/models
- vLLM文档: https://docs.vllm.ai
文档结束