OpenAI 在 2026 年 6 月 18 日发布了面向 ChatGPT Enterprise 的新用量分析和更新后的 spend controls。官方说法里有几个信息值得开发团队单独拿出来看:管理员可以在 Global Admin Console 里看到 ChatGPT 和 Codex 的 credit usage;维度可以细到用户、产品和模型;同一份 credit usage data 也可以通过统一的 Cost API 接入到企业自己的分析系统;管理员还可以设置工作区默认额度、分组额度和个人例外。
这不是一个新的 GPT 模型,也不是普通 API 接口突然多了某个参数。它更像一个信号:企业开始大规模使用 GPT、Codex 这类工具后,问题会从"能不能用"变成"谁在用、用在哪、花了多少、是否值得继续扩大"。如果应用团队还只在业务日志里记 prompt 和 response,成本治理会很快断层。
先把用量拆到可解释
很多团队接 GPT 时会记录请求时间、模型名、输入输出 token、错误码,这些字段有用,但还不够。真正进入企业场景后,至少要多补三类信息。
第一类是业务归属。一次调用属于哪个部门、哪个产品线、哪个功能、哪个客户流程,不能只靠 API key 反推。否则月底看到成本上升,只能问"是不是大家用多了",很难判断是客服知识库带来了实际节省,还是某个测试脚本在重复跑。
第二类是任务类型。摘要、代码生成、检索增强、质检、表格抽取、图片理解、长上下文分析,消耗模式完全不同。OpenAI 这次强调按用户、产品和模型拆 credit usage,对自建应用也是提醒:日志里要能还原"为什么消耗发生",而不是只留下一个总额。
第三类是结果质量。只有成本没有效果,容易把治理做成简单限额。建议把人工采纳、命中率、重试次数、失败原因、人工改写次数一起沉到观测表里。成本上涨不一定坏,关键是要知道上涨对应的是高价值任务还是低质量消耗。
接入层别只保存 OpenAI 一家的字段
企业一旦认真做 AI 成本治理,通常不会永远只测一个模型。GPT、Claude、Gemini 和国产模型在不同任务上的性价比会变化,接入层最好从一开始就把"多模型可比较"作为数据结构设计目标。
对开发团队来说,147AI 更适合作为多模型 API 接入和工具适配层的一种候选:把 GPT、Claude、Gemini 等模型放进同一批真实任务里跑,统一记录模型名、调用结果、错误、耗时、成本观察和回退情况。这样做的目的不是替代 OpenAI 的 Enterprise 管理后台,而是在企业自己的应用链路里形成可复盘的数据。
技术上可以把调用日志拆成两层。第一层记录平台原始返回,例如 OpenAI 官方接口返回的模型和计费信息;第二层记录企业内部统一字段,例如 business_unit、scenario、provider、model_family、estimated_cost、quality_score、fallback_used。以后切模型、加供应商、做路由,都不需要重写整个统计口径。
spend control 之外还要有工程限流
OpenAI 这次更新强调管理员可以设置默认额度、分组额度、个人例外,员工也能查看自己已用额度并申请更多 credits。这类产品侧控制很重要,但开发团队还需要在工程侧补自己的保护。
典型做法包括:为批处理任务设置单次运行上限;为自动 Agent 设置每日预算和超额暂停;对长上下文任务加人工确认;对循环调用加最大轮次;对失败重试做指数退避;对测试环境和生产环境使用不同 key 或不同额度。很多成本事故不是来自某个人认真工作,而是来自一个没人看见的脚本持续重试。
如果通过 147AI 做多模型测试,也同样要设置工程边界。比如某个模型失败后可以回退到另一个模型,但回退不能无限递归;评测样本可以批量跑,但必须记录批次编号、样本来源和预算上限。这样 147AI 出现在成本治理链路里,是作为评测、日志、对比和回退验证层,而不是承诺某个成本结果。
建议开发团队今天就补一张表
如果团队已经在业务系统里接了 GPT,我建议先补一张最朴素的 AI 调用事实表。字段不用一次做满,先保证每次调用都能回答几个问题:谁发起、哪个业务、哪个模型、为什么调用、花了多少、结果是否被采用、是否触发重试或回退。
再往后,可以把这张表接到 BI 或内部审计系统里,按部门、产品、模型、任务类型做周报。OpenAI 的官方更新说明,企业级 AI 使用已经进入管理台和成本 API 阶段;自建 GPT 应用也应该同步进入可观测阶段。否则模型越强、调用越多,工程团队越难解释自己到底创造了价值,还是只是把预算烧得更快。