47｜成本与性能：缓存、批处理、模型路由与降级

当你的 Agent 评测及格了，监控也装好了，一切看起来都很完美。

直到月底，老板拿着云厂商的账单冲进你的工位："为什么这个月的 API 调用费要 10 万块？这破系统还没赚到钱呢！"

大模型（LLM）不仅聪明，而且极其昂贵，速度还慢。

如果你在系统设计时不把"抠门"作为核心原则，你的项目活不过 3 个月。本篇我们就来讲讲，如何在不大幅牺牲智商的前提下，把 API 账单砍掉 80%，同时把响应速度提升 3 倍。

在 AI 时代，"复读机"是最烧钱的。

如果公司有 100 个人每天早上都在问你的 AI："今天的午餐菜谱是什么？" 你的系统是不是每次都要去调一遍 GPT-4？那简直是拿金条在打水漂。

解法：语义缓存（Semantic Cache）

传统的缓存是精确匹配（搜 1+1 存 2）。但人类说话千奇百怪，有人问"中午吃啥"，有人问"今天食堂供什么饭"。

怎么做 ：引入语义缓存。当新问题进来时，先用便宜的 Embedding 模型把它变成向量，去缓存库里搜。如果发现这个问题和昨天存的"午餐菜谱"的语义相似度高达 95%，系统就直接把昨天生成的答案扔给用户。
效果：大模型根本没有被唤醒，Token 消耗为 0，响应时间从 5 秒瞬间降到 50 毫秒！

很多后台任务（比如每天晚上审核 1000 份合同），对实时性要求不高。

如果你让 Agent 来一份合同就调一次 API，这就像送外卖，一次只送一单，效率极低，而且容易触发厂商的并发限流（Rate Limit）。

解法：批处理（Batch API）

现在各大云厂商（如 OpenAI、Anthropic）都推出了 Batch API。

怎么做 ：把这 1000 份合同的 Prompt 打包成一个 .jsonl 文件，一次性扔给云厂商。厂商会在他们服务器最闲的时候（比如半夜）帮你跑完，并在 24 小时内把结果文件还给你。
诱惑力 ：走 Batch API，费用通常直接打 5 折（半价）！而且没有并发限制的烦恼。只要你的业务允许"明天再看结果"，无脑上 Batch。

不是所有的问题都需要爱因斯坦来回答。

杀鸡用牛刀：用户问"你好"，系统调了极其昂贵的 Claude 3.5 Opus 或者 GPT-4o，花了几分钱。
让实习生干苦力：如果任务只是"把这段文本里的标点符号修一下"或者"判断这句话是正面还是负面"，完全可以用开源的、免费的本地小模型（如 Llama-3-8B），或者极便宜的 API（如 GPT-4o-mini）。

解法：智能模型路由

在系统最前端加一个简单的判断器（路由器）：

如果 OpenAI 的接口突然大面积宕机，或者你们公司的 API 预算今天已经彻底耗尽了，系统该怎么办？直接给用户弹个大红框报错吗？

在工程上，必须有一套"降级预案"。

一级降级（换云厂商）：GPT-4 挂了，系统自动在 100 毫秒内把请求切换给备用的 Claude 3.5 或国产模型（如 DeepSeek-V3）。这叫多云容灾。
二级降级（切断 Agent 工具）：为了省 Token，临时关闭 Agent 调用网络搜索的权限，强制让它只用内部知识库回答。
三级降级（退回石器时代）：大模型全挂了。系统自动切换回传统的"关键词搜索"或"人工客服转接"。虽然笨了点，但业务没断。

在项目立项前，请务必和老板对齐以下账本，不要等上线了再扯皮。

场景设定	模型选择	预估单次 Token (入+出)	万次请求成本预估	优化策略
闲聊与意图识别	GPT-4o-mini (极廉价)	~200 Tokens	< $1 (极低)	随便造，基本不花钱
RAG 知识库问答	中端模型 (如 DeepSeek)	~3000 Tokens (带长参考资料)	~$10	必须上语义缓存，拦截 30% 重复问题
Agent 循环写代码	GPT-4o / Claude 3.5	~10,000 Tokens (带报错日志)	~ $150 -$ 300	必须严格限制最大循环步数，折叠无用日志
后台海量数据清洗	高/中端模型皆可	~5000 Tokens	~$100	坚决改用 Batch API（批处理），享受半价

下一步路线提示 ：

评测做好了，监控加上了，成本也砍下来了。

万事俱备，只欠东风。我们该以什么形态把这个 AI 交给最终用户？是写个命令行脚本？还是封成一个 API？或者是做个漂亮的网页？

下一篇，我们将探讨 AI 产品的最后一步：《上线形态：本地脚本、服务端 API、前端产品、插件》。