GPT-5.4 mini API 实测：和 Claude 4.6、DeepSeek V3、Qwen 3 打了一圈，结果出乎意料

上周 OpenAI 悄悄放出了 GPT-5.4 mini，定位是 GPT-5 系列的轻量版------更便宜、更快、上下文更长。我第一反应是：又来一个 mini？上次 GPT-4o mini 出来的时候我就觉得「缩水版能打吗」，结果真香了好几个月。这次 GPT-5.4 mini 我花了两天时间，拉了几个同级别模型做了一轮横评，数据跑完说实话有点意外。

GPT-5.4 mini 是 OpenAI 在 2026 年推出的轻量级模型，主打低成本高性价比，代码生成和指令遵循的表现接近 GPT-5 主力版，价格只有其 1/5 左右。日常开发、批量任务、Agent 调用这类场景，它可能是目前性价比最高的选项。

评测维度

先说清楚我怎么测的。

5 个维度，每个跑 3 轮取平均值：

代码生成能力：HumanEval 变体题 + 实际业务场景（写一个带分页的 REST API）
指令遵循：复杂多步指令（JSON 输出格式约束、角色扮演一致性）
推理能力：逻辑链推理、数学题、多跳问答
响应延迟：首 token 时间（TTFT）和完整响应时间，统一测 500 token 输出
性价比：同等质量输出下的实际花费

参评选手：

GPT-5.4 mini（OpenAI 最新轻量版）
Claude Sonnet 4.6（Anthropic 中端主力）
DeepSeek V3（开源界扛把子）
Qwen 3（阿里最新版）
GLM-4.7（智谱刚发布的新版）

为什么没拉 GPT-5 和 Claude Opus 4.6？价格差了一个量级，和 mini 级别的模型比不公平。这次对标的都是各家性价比档位的选手。

评测结果天梯图

先上总表，细节后面拆：

维度	GPT-5.4 mini	Claude Sonnet 4.6	DeepSeek V3	Qwen 3	GLM-4.7
代码生成	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐½
指令遵循	⭐⭐⭐⭐⭐	⭐⭐⭐⭐½	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
推理能力	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐½	⭐⭐⭐⭐	⭐⭐⭐⭐
响应延迟	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐½	⭐⭐⭐⭐
性价比	⭐⭐⭐⭐⭐	⭐⭐⭐½	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐½
综合推荐	🥇 S 级	🥈 A+ 级	🥉 A 级	A 级	B+ 级

硬数据：

指标	GPT-5.4 mini	Claude Sonnet 4.6	DeepSeek V3	Qwen 3	GLM-4.7
HumanEval 通过率	89.2%	90.1%	85.7%	84.3%	79.8%
指令遵循准确率	94.6%	91.3%	87.2%	88.1%	86.5%
数学推理正确率	82.4%	88.7%	86.1%	81.9%	80.3%
TTFT（首 token）	~180ms	~320ms	~280ms	~210ms	~350ms
500 token 总耗时	~1.8s	~3.2s	~2.9s	~2.1s	~3.5s
输入价格/1M tokens	~$0.15	~$3.00	~$0.27	~$0.30	~$0.50
输出价格/1M tokens	~$0.60	~$15.00	~$1.10	~$1.20	~$2.00
上下文窗口	128K	200K	128K	128K	128K

第一梯队详解

GPT-5.4 mini：速度和性价比

跑完数据我有点震惊。这个 mini 版本在代码生成上几乎追平了 Claude Sonnet 4.6，指令遵循甚至更好。

让我印象最深的是指令遵循。我给了一个很刁钻的 prompt------要求输出严格的嵌套 JSON，字段名必须用 snake_case，数组里的对象按特定字段排序，最外层加一个 metadata 字段。GPT-5.4 mini 三轮全对，Claude Sonnet 4.6 第二轮漏了排序，其他模型多少都有格式问题。

速度方面，180ms 的首 token 时间是这轮测试里最快的，比 Claude Sonnet 4.6 快了将近一倍。做 Agent 链式调用的话，这个延迟差距累积起来很可观。

适用场景：Agent 工具调用、批量数据处理、日常编码辅助、对延迟敏感的实时应用。

Claude Sonnet 4.6：推理深度依然是天花板

综合分 GPT-5.4 mini 更高，但遇到需要深度推理的场景，Claude Sonnet 4.6 还是稳。

我给了一道多跳推理题：从一段 2000 字的需求文档里提取所有隐含的数据库约束条件，然后生成建表 SQL。Claude Sonnet 4.6 不仅把显式约束找全了，还推理出了两个文档里没有直接说但逻辑上必须有的外键关系。GPT-5.4 mini 漏了一个。

槽点是价格。输出 $15/1M tokens，是 GPT-5.4 mini 的 25 倍，日常用起来肉疼。

适用场景：复杂代码重构、架构设计、需要深度理解的文档分析。

第二梯队详解

DeepSeek V3：开源之光，但有短板

价格和 GPT-5.4 mini 一个量级，推理能力甚至更强一点。但代码生成的细节处理差了口气------比如生成 TypeScript 代码时，类型推断偶尔不够精确，需要手动修一下。

另一个问题是高峰期偶尔排队，延迟波动比较大。我测试时有一轮 TTFT 飙到了 800ms，另外两轮正常。

Qwen 3：均衡选手

各项指标均衡，没有明显短板，速度也不错。中文场景下表现尤其好，如果业务主要处理中文内容，Qwen 3 值得重点考虑。

GLM-4.7：潜力股但还需打磨

智谱刚发布的 GLM-4.7，加上 GLM-5 开源的消息，最近热度很高。实测基础能力够用，但复杂指令遵循和代码生成的边界 case 上还有提升空间。考虑到智谱的迭代速度，后续版本值得跟进。

API 调用对比

用 GPT-5.4 mini 写一个带 streaming 的调用示例：

python 复制代码

from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1" # 聚合接口，一个 Key 调所有模型
)

# GPT-5.4 mini 调用
response = client.chat.completions.create(
 model="gpt-5.4-mini",
 messages=[
 {"role": "system", "content": "你是一个高级 Python 开发者"},
 {"role": "user", "content": "写一个带分页和缓存的 FastAPI 接口"}
 ],
 stream=True,
 temperature=0.3
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="", flush=True)

切换模型只需要改 model 参数，换成 claude-sonnet-4.6 或 deepseek-v3，其他代码一行不用动。这也是我现在偏好用聚合接口的原因------ofox.ai 是一个 AI 模型聚合平台，一个 API Key 可以调用 GPT-5.4 mini、Claude 4.6、DeepSeek V3 等 50+ 模型，兼容 OpenAI SDK，切换模型不用改代码。

调用链路：
OpenAI SDK
路由分发
路由分发
路由分发
路由分发
路由分发
你的代码
ofox.ai 聚合网关
GPT-5.4 mini
Claude Sonnet 4.6
DeepSeek V3
Qwen 3
GLM-4.7

不同需求怎么选

日常编码 + Agent 调用 → GPT-5.4 mini

速度快、便宜、指令遵循好。批量跑任务的时候成本优势太明显了。

复杂推理 + 架构设计 → Claude Sonnet 4.6

贵是贵，但关键时刻靠得住。我现在的策略是日常用 mini，遇到硬骨头切 Claude。

预算极度敏感 → DeepSeek V3 / Qwen 3

够用就行的场景完全 hold 住。

中文内容处理 → Qwen 3

中文理解和生成的细腻程度确实有优势。

使用场景	首选模型	备选模型	月成本估算（日均 1 万次调用）
Agent 工具调用	GPT-5.4 mini	DeepSeek V3	¥200-400
代码生成辅助	GPT-5.4 mini	Claude Sonnet 4.6	¥300-500
复杂文档分析	Claude Sonnet 4.6	DeepSeek V3	¥3000-5000
批量数据清洗	DeepSeek V3	GPT-5.4 mini	¥150-300
中文内容生成	Qwen 3	GLM-4.7	¥250-400

小结

GPT-5.4 mini 是 2026 年到目前为止我用过性价比最高的模型。OpenAI 这次的策略很清楚------用极低的价格抢占 Agent 和批量调用市场。对独立开发者和小团队来说，这个价格意味着很多之前因为成本不敢做的功能现在可以放心上了。

不过别神话它，深度推理和复杂长文本分析上，Claude Sonnet 4.6 依然是更好的选择。我现在的工作流是 GPT-5.4 mini 打底、Claude 打硬仗，月成本比之前纯用 Claude 降了 60% 左右。

如果你也在纠结选哪个，建议先拿自己的真实业务 prompt 跑一遍，别光看 benchmark。每个人的场景不一样，测自己的才算数。