多模型场景下的成本治理指标体系

摘要：接了多个大模型之后，账单越来越看不懂？不是数字看不懂，是不知道钱花在哪、花得合不合理。这篇文章讲的是多模型场景下怎么建一套成本治理指标体系，让你把钱花在明处。
关键词：多模型成本治理、AI API 成本分析、token 消耗监控、大模型中转服务、大模型成本优化、API 调用成本

大家好，我是小枫。

上周有个朋友发消息问我，说他们公司 AI 账单这个月突然涨了一倍多，老板当场问他钱花哪了，他支支吾吾答不上来。

我问他们接了几个模型，三个。还自己搞了个路由做降级。我说那你这个情况我太懂了，不是钱花多了的问题，是你现在根本不知道钱花在哪了。

这两个是完全不同的问题。

一个模型和三个模型，差的不只是数量

以前只接一个模型，成本怎么算？调了多少次，每次大概多少 token，乘个单价，搞定。就算贵了，你也知道是哪贵的，心里有底。

接了三个模型之后，这套逻辑就废了。

定价这块就先乱了。 每家的计费方式根本不一样。有的按输入输出分别算，有的还有最低消费，Claude 这种有思维链的，推理 token 和普通 token 还是两个价。你想用一个公式算清楚？做梦。

流量分布也不固定。 你以为按比例分好就固定了，其实每天都在变。A 模型今天限流了，路由自动切，结果 B 模型跑了 70%，你完全不知道。等月底看账单，B 模型怎么花了这么多？因为它扛了三周的大头流量啊。

降级产生的隐性消耗更难发现。 一个请求 A 失败了，自动切 B 重试，这个过程消耗了两个模型的 token。但账单上是两笔钱，没有任何地方告诉你这两笔其实是同一个请求产生的，你根本串不起来。

还有 token 效率的问题。 同一个任务，A 模型 300 token 回答完了，B 模型非得用 800 token，还喜欢加一堆废话。贵模型费 token，便宜模型也未必省，不拆开看就发现不了。

盯着总账单没用，得拆。

怎么拆，我按四层来说

这不是什么权威方法论，就是我自己踩过一堆坑之后总结出来的，照着做大概率有用。

第一层------先知道用了多少

最基础，但我见过太多团队连这个都没跑起来。

几个数字要有：总调用量、每个模型分别调了多少、每个业务功能各占多少。 有了这三个，流量分布就清楚了。

还有一个大家容易漏的：有效调用率，就是调完之后结果真正被用上的比例。

这个数字我第一次看的时候也吓了一跳------我们有将近 18% 的调用是白打的，超时的、返回格式不对被丢掉的、结果不符合要求重新调的。将近五分之一的钱直接扔了。

成本治理的第一刀砍这里，比什么都快。

第二层------token 花了多少

次数只是个维度，真正决定账单的是 token 量。

输入和输出要分开看。 输入多，基本是 prompt 太长或者上下文没清理；输出多，要么是模型太啰嗦，要么是你没限制回复长度，它就自由发挥了。

单请求的平均 token 数如果某段时间突然涨了，一定是哪出了问题，去查。

P95 也有用。 不是大部分请求的平均，而是 95% 的请求都低于这个值，剩下那 5% 就是异常大的。这些请求往往是 bug 或边缘 case，揪出来处理，省的钱可能超出你想象。

另外，这些统计必须按模型分开跑，不能混。同样 100 万 token，便宜模型几毛钱，贵模型轻松几十美元，混着看等于什么都没看。

第三层------值不值这个钱

前两层知道花了多少，这层要回答花得合不合理。

最核心的一个数：CPR（单请求平均成本），就是总费用除以有效请求数。这个数字能告诉你 AI 成本均摊下来是什么水位。

按模型拆 CPR，找最贵的；按功能拆，找最贵的那块。通常会发现有一两个地方在悄悄吃掉大头预算。

还有一个多模型特有的指标很多人没关注：降级额外成本率，就是因为降级、重试白花掉的钱占总费用的比例。

这个数一旦超过 10%，就该认真查了。我们有段时间跑到了 14%，查下来是降级阈值设太低，稍微一慢就切了，主模型其实没挂，白白多消耗了一堆 B 模型的 token。

第四层------这钱到底有没有产出

这一层很多技术同学不愿意碰，觉得不好量化。但其实不需要精确，粗估都行。

就三个问题：AI 功能上了之后核心业务指标有没有变好？平均产出一个有价值的结果 AI 成本是多少？总体上收益比成本多吗？

能回答这三个，你才能跟老板说清楚钱花得值不值，要不要继续投。说不清楚的话，下次预算会议等着被问死吧。

数据从哪来

说了这么多，落地会碰到一个现实问题：数据怎么收集？

自己搭的话，每次调用加埋点，模型名、token 数、耗时、状态、业务标签都记下来，写进日志，搭个 dashboard。不难，但费时间。小团队做这个性价比不高，毕竟还有正经业务要干。

用了中转网关的话，找一个调用分析做得好的平台，前三层的数据基本都现成，控制台直接看，省掉自己搭这套的时间。

第四层必须和自己的业务系统打通，没有通用方案，得自己来。但有了前三层打底，第四层只是加一层业务逻辑，没想象中那么难。

几条实际建议

别想着一步到位。 先把第一层跑起来，就一周，你会发现好几个"居然这里花了这么多"的点，光解决这几个成本就能降不少。

调用加标签要早做。 "客服问答""内容审核""代码生成"分开打，越晚做越难补，后续按功能分析成本才有依据。

成本告警一定要设。 不需要很精准，超过某个数发通知就行。等你自己发现超了，通常已经超了一大截。

每个月花半小时复盘。 哪些指标变好了，哪些模型性价比有变化。这东西不是搞一次就完，要持续盯。

没有指标，你只是在感觉上觉得贵，但没法真正解决。

先把灯打开，再说去哪走。

有问题评论区见，我看到就回。