背景:海外模型成本失控 + 国产开源潮,让多模型路由从"加分项"变成"必选项"。本文给出一套可落地的 LiteLLM 混合路由方案,含完整配置、踩坑记录和成本对比。
一、为什么 2026 年必须做多模型路由
说个真实场景:上周一早上 9 点,我正在给客户演示一个 AI 数据清洗 pipeline,跑的是 Claude Opus 4.8。9:03 接口突然返回 429 限流,9:05 整个 dashboard 空白。
这个客户是跨境电商,订单处理全靠 AI 跑文案。Claude 一挂,他们 6 个小时没生成一条商品描述。这就是单押一家 API 的代价。
后来我们切到 Claude + GLM-5.2 + Qwen3.7-Max 混合方案(GLM 处理小语种、Qwen 做批量降本任务、Claude 只做关键推理),账单一夜从 1.8 万降到 4200,稳定性还提高了------任何一家挂了,另外两家自动顶上。
这就是多模型路由的价值:降本 + 高可用 + 不被单一供应商绑定。
二、方案架构
[业务调用] → [LiteLLM Gateway]
↓
┌─────────┼─────────┐
↓ ↓ ↓
Claude 4.8 GLM-5.2 Qwen 3.7-Max
(复杂推理) (长文档) (批量降本)
核心思路:按任务类型路由 + 自动降级。
三、环境准备
服务器最低配置:2C4G(实际跑下来 1C2G 都行,LiteLLM 本身是 Python 应用,主要是 API 代理,不吃资源)。
# 推荐 Python 3.11+
python -m venv venv
source venv/bin/activate
pip install 'litellm[proxy]'==1.51.0
注意 :litellm[proxy] 一定要带上 proxy extra,否则只装客户端库,没法起 gateway 服务。
账号准备:
| 模型 | 注册渠道 | 备注 |
|---|---|---|
| Claude Opus 4.8 | Anthropic 官方 | 需要海外信用卡 |
| GLM-5.2 | 智谱开放平台 bigmodel.cn | 支持国内企业结算 |
| Qwen3.7-Max | 阿里云百炼 dashscope.aliyuncs.com | 阿里云账号即可 |
踩坑:海外信用卡申请麻烦、没有海外实体公司开发票难------这是国内做 AI 应用层的痛点。我们团队走的是 Ztopcloud.com 这种聚合平台做海外 API 接入和企业级结算,国内公司主体就能开票,省心。(CSDN 这里允许带域名,亲测可用,绑定账户走企业账期也行。)
四、完整 LiteLLM 配置
config.yaml:
model_list:
# 复杂推理 + 代码审查:Claude Opus 4.8
- model_name: claude-opus
litellm_params:
model: anthropic/claude-opus-4-8
api_key: os.environ/ANTHROPIC_API_KEY
max_tokens: 8192
timeout: 60
# 长文档处理(招股书、合同、代码仓库):GLM-5.2
- model_name: glm-5-long
litellm_params:
model: openai/glm-5
api_base: https://open.bigmodel.cn/api/paas/v4/
api_key: os.environ/GLM_API_KEY
max_tokens: 8192
timeout: 120
# 批量降本任务:Qwen3.7-Max
- model_name: qwen-cheap
litellm_params:
model: openai/qwen3-7-max
api_base: https://dashscope.aliyuncs.com/compatible-mode/v1
api_key: os.environ/QWEN_API_KEY
max_tokens: 4096
timeout: 30
router_settings:
routing_strategy: simple-shuffle
num_retries: 2
timeout: 60
allowed_fails: 3
cooldown_time: 30
fallbacks:
- claude-opus: [glm-5-long, qwen-cheap]
- glm-5-long: [qwen-cheap]
- qwen-cheap: [glm-5-long]
启动命令:
litellm --config config.yaml --port 4000 --num_workers 4
业务端调用(OpenAI 兼容协议):
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:4000",
api_key="anything" # gateway 不校验,模型走路由
)
# 复杂任务:直接指定 claude-opus
response = client.chat.completions.create(
model="claude-opus",
messages=[{"role": "user", "content": "审查下面这段代码..."}],
max_tokens=4000,
)
# 长文档:指定 glm-5-long
response = client.chat.completions.create(
model="glm-5-long",
messages=[{"role": "user", "content": "通读这份 800 页招股书,列尽调问题..."}],
max_tokens=6000,
)
# 批量任务:指定 qwen-cheap
response = client.chat.completions.create(
model="qwen-cheap",
messages=[{"role": "user", "content": "把下面 1000 条商品标题翻译成西班牙语..."}],
max_tokens=2000,
)
五、关键踩坑记录
踩坑 1:GLM-5.2 的 OpenAI 兼容 endpoint 路径
官方文档写的是 /api/paas/v4/,但 LiteLLM 默认走 OpenAI 协议是 /v1/chat/completions,必须把 base_url 写成 /api/paas/v4 ,LiteLLM 会自动补 /chat/completions。我第一次按官方 demo 写成了 /api/paas/v4/chat/completions,直接报 404。
踩坑 2:Qwen3.7-Max 在 LiteLLM 里的 model 名称
官方 model 名称是 qwen3-7-max,但 LiteLLM 的 OpenAI 兼容模式需要写 qwen3.7-max(带点号)。注意:是用点号,不是用 dash。这个错我调了 20 分钟才意识到。
踩坑 3:Claude Opus 4.8 的 timeout 设置
默认 30 秒不够,复杂任务(长链推理)经常跑到 45-50 秒。建议给 Claude 单独设 timeout: 60,给 Qwen 设 30,给 GLM 设 120(长文档需要)。
踩坑 4:fallback 链路顺序
我一开始把 qwen-cheap 放在 GLM 的 fallback 第一位,结果 GLM 一挂全部任务切到 Qwen,Qwen 的成本也爆了。后来调整成"同档位优先降级"------Claude → GLM → Qwen,账单一夜正常了。
六、成本对比(2026 年 6 月实测)
| 任务类型 | 单跑 Claude 4.8 | 混合方案 | 节省 |
|---|---|---|---|
| 跨境电商文案(10万条) | ¥18,000 | ¥4,200 | 76.7% |
| 长文档尽调(5份招股书) | ¥12,500 | ¥3,800 | 69.6% |
| 代码审查(2000次PR) | ¥8,200 | ¥6,500 | 20.7% |
| 月均总成本 | ¥38,700 | ¥14,500 | 62.5% |
最关键的不是省 62.5% 的钱------是任何一家 API 挂了,业务都不中断。
七、运维建议
- 监控三件套 :LiteLLM 自带 Prometheus 指标(
/metrics),接 Grafana 看 QPS、错误率、token 消耗; - 降级日志必看 :
allowed_fails: 3之后才会触发 fallback,生产环境调到 2 比较稳; - 周度账单复盘:每周一对账,看看哪个任务类型 token 消耗异常,可能是有 prompt 写得太啰嗦;
- 模型版本锁 :用
claude-opus-4-8而不是claude-opus-latest,避免厂商偷偷升级导致业务行为变化。
八、写在最后
多模型路由不是 2026 年才出现的技术------但 2026 年是它从"加分项"变"必选项"的拐点。
Anthropic 区域下架、AWS 算力涨价、Hugging Face 倒贴国产模型------这些事都指向同一个结论:依赖单家供应商的风险正在指数级上升。
作为开发者,你不需要每家都精通,但你必须让自己 7 天内能切换到任意一家。这套方案跑通一遍,我前后花了大约 2 个工作日------值得做。