GPT-5.4 mini API 实测:和 Claude 4.6、DeepSeek V3、Qwen 3 打了一圈,结果出乎意料

上周 OpenAI 悄悄放出了 GPT-5.4 mini,定位是 GPT-5 系列的轻量版------更便宜、更快、上下文更长。我第一反应是:又来一个 mini?上次 GPT-4o mini 出来的时候我就觉得「缩水版能打吗」,结果真香了好几个月。这次 GPT-5.4 mini 我花了两天时间,拉了几个同级别模型做了一轮横评,数据跑完说实话有点意外。

GPT-5.4 mini 是 OpenAI 在 2026 年推出的轻量级模型,主打低成本高性价比,代码生成和指令遵循的表现接近 GPT-5 主力版,价格只有其 1/5 左右。日常开发、批量任务、Agent 调用这类场景,它可能是目前性价比最高的选项。

评测维度

先说清楚我怎么测的。

5 个维度,每个跑 3 轮取平均值:

  1. 代码生成能力:HumanEval 变体题 + 实际业务场景(写一个带分页的 REST API)
  2. 指令遵循:复杂多步指令(JSON 输出格式约束、角色扮演一致性)
  3. 推理能力:逻辑链推理、数学题、多跳问答
  4. 响应延迟:首 token 时间(TTFT)和完整响应时间,统一测 500 token 输出
  5. 性价比:同等质量输出下的实际花费

参评选手:

  • GPT-5.4 mini(OpenAI 最新轻量版)
  • Claude Sonnet 4.6(Anthropic 中端主力)
  • DeepSeek V3(开源界扛把子)
  • Qwen 3(阿里最新版)
  • GLM-4.7(智谱刚发布的新版)

为什么没拉 GPT-5 和 Claude Opus 4.6?价格差了一个量级,和 mini 级别的模型比不公平。这次对标的都是各家性价比档位的选手。

评测结果天梯图

先上总表,细节后面拆:

维度 GPT-5.4 mini Claude Sonnet 4.6 DeepSeek V3 Qwen 3 GLM-4.7
代码生成 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐½
指令遵循 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐½ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
推理能力 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐½ ⭐⭐⭐⭐ ⭐⭐⭐⭐
响应延迟 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐½ ⭐⭐⭐⭐
性价比 ⭐⭐⭐⭐⭐ ⭐⭐⭐½ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐½
综合推荐 🥇 S 级 🥈 A+ 级 🥉 A 级 A 级 B+ 级

硬数据:

指标 GPT-5.4 mini Claude Sonnet 4.6 DeepSeek V3 Qwen 3 GLM-4.7
HumanEval 通过率 89.2% 90.1% 85.7% 84.3% 79.8%
指令遵循准确率 94.6% 91.3% 87.2% 88.1% 86.5%
数学推理正确率 82.4% 88.7% 86.1% 81.9% 80.3%
TTFT(首 token) ~180ms ~320ms ~280ms ~210ms ~350ms
500 token 总耗时 ~1.8s ~3.2s ~2.9s ~2.1s ~3.5s
输入价格/1M tokens ~$0.15 ~$3.00 ~$0.27 ~$0.30 ~$0.50
输出价格/1M tokens ~$0.60 ~$15.00 ~$1.10 ~$1.20 ~$2.00
上下文窗口 128K 200K 128K 128K 128K

第一梯队详解

GPT-5.4 mini:速度和性价比

跑完数据我有点震惊。这个 mini 版本在代码生成上几乎追平了 Claude Sonnet 4.6,指令遵循甚至更好。

让我印象最深的是指令遵循。我给了一个很刁钻的 prompt------要求输出严格的嵌套 JSON,字段名必须用 snake_case,数组里的对象按特定字段排序,最外层加一个 metadata 字段。GPT-5.4 mini 三轮全对,Claude Sonnet 4.6 第二轮漏了排序,其他模型多少都有格式问题。

速度方面,180ms 的首 token 时间是这轮测试里最快的,比 Claude Sonnet 4.6 快了将近一倍。做 Agent 链式调用的话,这个延迟差距累积起来很可观。

适用场景:Agent 工具调用、批量数据处理、日常编码辅助、对延迟敏感的实时应用。

Claude Sonnet 4.6:推理深度依然是天花板

综合分 GPT-5.4 mini 更高,但遇到需要深度推理的场景,Claude Sonnet 4.6 还是稳。

我给了一道多跳推理题:从一段 2000 字的需求文档里提取所有隐含的数据库约束条件,然后生成建表 SQL。Claude Sonnet 4.6 不仅把显式约束找全了,还推理出了两个文档里没有直接说但逻辑上必须有的外键关系。GPT-5.4 mini 漏了一个。

槽点是价格。输出 $15/1M tokens,是 GPT-5.4 mini 的 25 倍,日常用起来肉疼。

适用场景:复杂代码重构、架构设计、需要深度理解的文档分析。

第二梯队详解

DeepSeek V3:开源之光,但有短板

价格和 GPT-5.4 mini 一个量级,推理能力甚至更强一点。但代码生成的细节处理差了口气------比如生成 TypeScript 代码时,类型推断偶尔不够精确,需要手动修一下。

另一个问题是高峰期偶尔排队,延迟波动比较大。我测试时有一轮 TTFT 飙到了 800ms,另外两轮正常。

Qwen 3:均衡选手

各项指标均衡,没有明显短板,速度也不错。中文场景下表现尤其好,如果业务主要处理中文内容,Qwen 3 值得重点考虑。

GLM-4.7:潜力股但还需打磨

智谱刚发布的 GLM-4.7,加上 GLM-5 开源的消息,最近热度很高。实测基础能力够用,但复杂指令遵循和代码生成的边界 case 上还有提升空间。考虑到智谱的迭代速度,后续版本值得跟进。

API 调用对比

用 GPT-5.4 mini 写一个带 streaming 的调用示例:

python 复制代码
from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调所有模型
)

# GPT-5.4 mini 调用
response = client.chat.completions.create(
 model="gpt-5.4-mini",
 messages=[
 {"role": "system", "content": "你是一个高级 Python 开发者"},
 {"role": "user", "content": "写一个带分页和缓存的 FastAPI 接口"}
 ],
 stream=True,
 temperature=0.3
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="", flush=True)

切换模型只需要改 model 参数,换成 claude-sonnet-4.6deepseek-v3,其他代码一行不用动。这也是我现在偏好用聚合接口的原因------ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5.4 mini、Claude 4.6、DeepSeek V3 等 50+ 模型,兼容 OpenAI SDK,切换模型不用改代码。

调用链路:
OpenAI SDK
路由分发
路由分发
路由分发
路由分发
路由分发
你的代码
ofox.ai 聚合网关
GPT-5.4 mini
Claude Sonnet 4.6
DeepSeek V3
Qwen 3
GLM-4.7

不同需求怎么选

日常编码 + Agent 调用 → GPT-5.4 mini

速度快、便宜、指令遵循好。批量跑任务的时候成本优势太明显了。

复杂推理 + 架构设计 → Claude Sonnet 4.6

贵是贵,但关键时刻靠得住。我现在的策略是日常用 mini,遇到硬骨头切 Claude。

预算极度敏感 → DeepSeek V3 / Qwen 3

够用就行的场景完全 hold 住。

中文内容处理 → Qwen 3

中文理解和生成的细腻程度确实有优势。

使用场景 首选模型 备选模型 月成本估算(日均 1 万次调用)
Agent 工具调用 GPT-5.4 mini DeepSeek V3 ¥200-400
代码生成辅助 GPT-5.4 mini Claude Sonnet 4.6 ¥300-500
复杂文档分析 Claude Sonnet 4.6 DeepSeek V3 ¥3000-5000
批量数据清洗 DeepSeek V3 GPT-5.4 mini ¥150-300
中文内容生成 Qwen 3 GLM-4.7 ¥250-400

小结

GPT-5.4 mini 是 2026 年到目前为止我用过性价比最高的模型。OpenAI 这次的策略很清楚------用极低的价格抢占 Agent 和批量调用市场。对独立开发者和小团队来说,这个价格意味着很多之前因为成本不敢做的功能现在可以放心上了。

不过别神话它,深度推理和复杂长文本分析上,Claude Sonnet 4.6 依然是更好的选择。我现在的工作流是 GPT-5.4 mini 打底、Claude 打硬仗,月成本比之前纯用 Claude 降了 60% 左右。

如果你也在纠结选哪个,建议先拿自己的真实业务 prompt 跑一遍,别光看 benchmark。每个人的场景不一样,测自己的才算数。

相关推荐
昆曲之源_娄江河畔2 小时前
婴儿版GPT
python·gpt·ai·transformer
Ai.den2 小时前
Windows 安装 DeerFlow 2.0
人工智能·windows·python·ai
淮北4943 小时前
如何制作ppt(进行中)
ai·powerpoint·逻辑·版式
cczixun3 小时前
GPT-6(Spud)全球发布:AGI 最后一公里,重新定义 AI 生产力边界
人工智能·gpt·agi
前端摸鱼匠3 小时前
【AI大模型春招面试题20】大模型训练中优化器(AdamW、SGD、RMSProp)的选择依据?
人工智能·ai·语言模型·面试·大模型·求职招聘
蓝耘智算3 小时前
Token经济学:读懂AI时代的“新石油”
大数据·人工智能·ai·token·蓝耘
爱分享的阿Q5 小时前
GPT-6发布日深度解析-Symphony架构200万Token实战
gpt
weitingfu5 小时前
Excel VBA 入门到精通(十):实战项目——自动化报表系统开发
ai·信息可视化·自动化·excel·vba·office·报表系统