2026 轻量模型 API 实测：GPT-5.5 Nano、Gemini 3.1 Flash、Haiku 4.5 延迟与成本横评

上个月我们团队在做一个客服意图识别的微服务，QPS 大概在 200 左右，对延迟要求比较苛刻------P95 必须压在 400ms 以内。一开始用的 Claude Sonnet 4.6，效果是好，但成本算下来一天要 ¥380+，老板直接说"换个便宜的，意图分类又不是写小说"。

于是我花了三天时间把市面上主流的轻量级模型 API 都跑了一遍。说实话测完数据我人傻了------2026 年这些 nano/flash/haiku 级别的模型，能力已经逼近去年的旗舰了。

评测维度

这次不搞那种跑 benchmark 然后贴论文的套路。我的场景很明确：短文本分类 + JSON 结构化输出，所以评测维度就三个：

首 Token 延迟（TTFT）：用户体感最直接的指标
每百万 Token 成本：算的是 input + output 混合，按我们实际 3:1 的比例
结构化输出准确率：给 500 条真实客服对话，看 JSON schema 遵循率

测试条件：香港服务器，每个模型跑 1000 次取 P50/P95，时间是 4 月 21-23 号。

评测结果天梯图

模型	提供商	TTFT P50	TTFT P95	百万Token成本(¥)	JSON遵循率	综合评级
GPT-5.5 Nano	OpenAI	89ms	142ms	¥4.2	97.8%	⭐⭐⭐⭐⭐
Gemini 3.1 Flash	Google	76ms	128ms	¥3.6	95.2%	⭐⭐⭐⭐⭐
Claude Haiku 4.5	Anthropic	105ms	187ms	¥5.8	98.4%	⭐⭐⭐⭐
DeepSeek V3.2 Chat	DeepSeek	112ms	320ms	¥1.4	93.6%	⭐⭐⭐⭐
Qwen3-Turbo	阿里	95ms	215ms	¥2.0	94.1%	⭐⭐⭐⭐
GLM-5 Flash	智谱	118ms	268ms	¥1.8	91.2%	⭐⭐⭐

说一下，DeepSeek V3.2 的 P95 波动比较大，320ms 是好几次超时拉上去的，P50 其实很快。

第一梯队：GPT-5.5 Nano 和 Gemini 3.1 Flash

这俩是这次测下来最让我意外的。

GPT-5.5 Nano 是 OpenAI 4 月 18 号才放出来的，定位就是替代之前 GPT-4o-mini 的生态位。实测下来 JSON mode 几乎不出错，142ms 的 P95 非常稳。不过有个坑------它的 response_format 参数和 GPT-5.5 主模型的写法不太一样，我一开始直接复制过来，返回的是：

复制代码

Error: 'json_schema' is not supported for gpt-5.5-nano. Use 'json_object' instead.

折腾了半小时才发现文档角落里写着 Nano 系列暂不支持 structured outputs 的完整 schema 定义，只能用老的 json_object 模式。

Gemini 3.1 Flash 延迟是最低的，76ms 的 P50 真的离谱。Google 的推理芯片确实有东西。但 JSON 遵循率比 GPT-5.5 Nano 低了 2.6 个百分点，主要是偶尔会在 JSON 外面包一层 markdown 代码块，得自己做一层 strip。

graph TD A[客服消息输入] --> B{延迟优先 or 准确率优先?} B -->|延迟优先| C[Gemini 3.1 Flash] B -->|准确率优先| D[GPT-5.5 Nano] B -->|成本优先| E[DeepSeek V3.2] C --> F[P50: 76ms / ¥3.6/M] D --> G[P50: 89ms / ¥4.2/M] E --> H[P50: 112ms / ¥1.4/M]

第二梯队：Haiku 4.5 和 DeepSeek V3.2

Claude Haiku 4.5 的 JSON 遵循率最高（98.4%），Anthropic 在指令遵循这块一直很强。但延迟和价格都比前两个高一截。如果你的场景对格式准确性要求极高------比如直接 parse 后入库，不想写 fallback 逻辑------Haiku 是最省心的。

DeepSeek V3.2 的性价比依然炸裂，¥1.4/百万Token，是 GPT-5.5 Nano 的三分之一。但 P95 的波动让我不太敢在生产环境用------偶尔会蹦出一个 800ms+ 的请求，对我们 400ms 的 SLA 来说太危险了。

不同需求怎么选

看你最在意什么：

在意延迟稳定性：GPT-5.5 Nano。P95 只有 142ms，方差小，适合有 SLA 约束的生产服务。

在意极致低延迟：Gemini 3.1 Flash。P50 最快，但要自己处理偶尔的格式问题。

在意成本：DeepSeek V3.2 或 Qwen3-Turbo。能接受偶尔的延迟毛刺的话，一天能省出好几百块。

在意准确率：Claude Haiku 4.5。JSON 格式几乎不出错，省了写 retry 逻辑的时间。

我最后选了 GPT-5.5 Nano 做主力，DeepSeek V3.2 做 fallback。调用链路上套了一层聚合网关------我们用的 OpenRouter 和 ofox.ai 都测过，OpenRouter 加 5.5% 手续费算下来一个月多出 ¥200 多，ofox.ai 是 0% 加价直接对齐官方价格，最后切到了后者。代码改动就一行 base_url：

python 复制代码

from openai import OpenAI

# 主力模型
client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1"
)

resp = client.chat.completions.create(
 model="gpt-5.5-nano",
 messages=[{"role": "user", "content": ticket_text}],
 response_format={"type": "json_object"},
 temperature=0
)

小结

2026 年轻量模型这个赛道卷得厉害，GPT-5.5 Nano 的综合表现确实最均衡。不过我也不确定 Google 下个月会不会再把 Flash 的价格砍一刀------去年他们就干过这事。

意图分类这种任务已经完全不需要旗舰模型了。省下来的预算拿去跑 RAG 的 embedding，不香吗。