上个月我们团队在做一个客服意图识别的微服务,QPS 大概在 200 左右,对延迟要求比较苛刻------P95 必须压在 400ms 以内。一开始用的 Claude Sonnet 4.6,效果是好,但成本算下来一天要 ¥380+,老板直接说"换个便宜的,意图分类又不是写小说"。
于是我花了三天时间把市面上主流的轻量级模型 API 都跑了一遍。说实话测完数据我人傻了------2026 年这些 nano/flash/haiku 级别的模型,能力已经逼近去年的旗舰了。
评测维度
这次不搞那种跑 benchmark 然后贴论文的套路。我的场景很明确:短文本分类 + JSON 结构化输出,所以评测维度就三个:
- 首 Token 延迟(TTFT):用户体感最直接的指标
- 每百万 Token 成本:算的是 input + output 混合,按我们实际 3:1 的比例
- 结构化输出准确率:给 500 条真实客服对话,看 JSON schema 遵循率
测试条件:香港服务器,每个模型跑 1000 次取 P50/P95,时间是 4 月 21-23 号。
评测结果天梯图
| 模型 | 提供商 | TTFT P50 | TTFT P95 | 百万Token成本(¥) | JSON遵循率 | 综合评级 |
|---|---|---|---|---|---|---|
| GPT-5.5 Nano | OpenAI | 89ms | 142ms | ¥4.2 | 97.8% | ⭐⭐⭐⭐⭐ |
| Gemini 3.1 Flash | 76ms | 128ms | ¥3.6 | 95.2% | ⭐⭐⭐⭐⭐ | |
| Claude Haiku 4.5 | Anthropic | 105ms | 187ms | ¥5.8 | 98.4% | ⭐⭐⭐⭐ |
| DeepSeek V3.2 Chat | DeepSeek | 112ms | 320ms | ¥1.4 | 93.6% | ⭐⭐⭐⭐ |
| Qwen3-Turbo | 阿里 | 95ms | 215ms | ¥2.0 | 94.1% | ⭐⭐⭐⭐ |
| GLM-5 Flash | 智谱 | 118ms | 268ms | ¥1.8 | 91.2% | ⭐⭐⭐ |
说一下,DeepSeek V3.2 的 P95 波动比较大,320ms 是好几次超时拉上去的,P50 其实很快。
第一梯队:GPT-5.5 Nano 和 Gemini 3.1 Flash
这俩是这次测下来最让我意外的。
GPT-5.5 Nano 是 OpenAI 4 月 18 号才放出来的,定位就是替代之前 GPT-4o-mini 的生态位。实测下来 JSON mode 几乎不出错,142ms 的 P95 非常稳。不过有个坑------它的 response_format 参数和 GPT-5.5 主模型的写法不太一样,我一开始直接复制过来,返回的是:
Error: 'json_schema' is not supported for gpt-5.5-nano. Use 'json_object' instead.
折腾了半小时才发现文档角落里写着 Nano 系列暂不支持 structured outputs 的完整 schema 定义,只能用老的 json_object 模式。
Gemini 3.1 Flash 延迟是最低的,76ms 的 P50 真的离谱。Google 的推理芯片确实有东西。但 JSON 遵循率比 GPT-5.5 Nano 低了 2.6 个百分点,主要是偶尔会在 JSON 外面包一层 markdown 代码块,得自己做一层 strip。
第二梯队:Haiku 4.5 和 DeepSeek V3.2
Claude Haiku 4.5 的 JSON 遵循率最高(98.4%),Anthropic 在指令遵循这块一直很强。但延迟和价格都比前两个高一截。如果你的场景对格式准确性要求极高------比如直接 parse 后入库,不想写 fallback 逻辑------Haiku 是最省心的。
DeepSeek V3.2 的性价比依然炸裂,¥1.4/百万Token,是 GPT-5.5 Nano 的三分之一。但 P95 的波动让我不太敢在生产环境用------偶尔会蹦出一个 800ms+ 的请求,对我们 400ms 的 SLA 来说太危险了。
不同需求怎么选
看你最在意什么:
在意延迟稳定性:GPT-5.5 Nano。P95 只有 142ms,方差小,适合有 SLA 约束的生产服务。
在意极致低延迟:Gemini 3.1 Flash。P50 最快,但要自己处理偶尔的格式问题。
在意成本:DeepSeek V3.2 或 Qwen3-Turbo。能接受偶尔的延迟毛刺的话,一天能省出好几百块。
在意准确率:Claude Haiku 4.5。JSON 格式几乎不出错,省了写 retry 逻辑的时间。
我最后选了 GPT-5.5 Nano 做主力,DeepSeek V3.2 做 fallback。调用链路上套了一层聚合网关------我们用的 OpenRouter 和 ofox.ai 都测过,OpenRouter 加 5.5% 手续费算下来一个月多出 ¥200 多,ofox.ai 是 0% 加价直接对齐官方价格,最后切到了后者。代码改动就一行 base_url:
python
from openai import OpenAI
# 主力模型
client = OpenAI(
api_key="your-key",
base_url="https://api.ofox.ai/v1"
)
resp = client.chat.completions.create(
model="gpt-5.5-nano",
messages=[{"role": "user", "content": ticket_text}],
response_format={"type": "json_object"},
temperature=0
)
小结
2026 年轻量模型这个赛道卷得厉害,GPT-5.5 Nano 的综合表现确实最均衡。不过我也不确定 Google 下个月会不会再把 Flash 的价格砍一刀------去年他们就干过这事。
意图分类这种任务已经完全不需要旗舰模型了。省下来的预算拿去跑 RAG 的 embedding,不香吗。