昨晚刷推被炸了。
OpenAI 和 Google 同一天放了两个模型------GPT-5.3 Instant 和 Gemini 3.1 Flash-Lite。这俩还走了完全不同的路线,一个卷"说话方式",一个卷"极致便宜"。
作为一个每天跟 AI API 打交道的人,不第一时间跑个对比说不过去。花了一晚上都试了一遍,说几句大实话。
GPT-5.3 Instant:终于不"爹"了
OpenAI 这次的更新方向让我挺意外------不是卷跑分,是卷说话方式。
官方用了个词:less cringe。翻译成人话就是"不那么爹味了" 😅
以前用 GPT-5.2,你让它写个代码,它先教育你一顿:
"在进行此操作之前,我需要提醒您注意以下安全性考虑。首先,您应该确保......"
兄弟我就是想写个 for 循环 🙃
GPT-5.3 Instant 主要改了这几个点:
- 幻觉减少 26.8%(医疗、法律、金融等高风险场景)
- 用户标记的事实性错误减少 22.5%
- 不再动不动"我无法为你做这个"
- 直接给答案,不废话
API 模型 ID:gpt-5.3-chat-latest
来,跑个对比你们感受一下。同一个 prompt:"用 Python 写一个快排,不要废话"
GPT-5.2 的回复(大概意思):
css
快速排序(Quick Sort)是一种高效的排序算法,由 C.A.R. Hoare 在 1960 年提出。
其基本思想是通过一趟排序将要排序的数据分割成独立的两部分......
以下是 Python 实现:
[代码]
需要注意的是,上述实现使用了额外的空间。在生产环境中,
建议考虑原地排序的实现方式以优化空间复杂度......
GPT-5.3 的回复:
python
def quicksort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quicksort(left) + middle + quicksort(right)
完事。没有开场白,没有注意事项,没有"如果您还有其他问题"。
舒服了。
Gemini 3.1 Flash-Lite:便宜到离谱
Google 走的完全是另一条路------极致性价比。
看这个定价:
| 输入 | 输出 | |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 / 百万 token | $1.50 / 百万 token |
什么概念?Gemini 3 系列的能力,Flash 级别的价格。跑批量任务的时候,成本差距非常明显。
速度更夸张:
- 首 token 响应比 Gemini 2.5 Flash 快 2.5 倍
- 输出速度提升 45%
但最有意思的是新加的 Thinking Levels 功能。你可以手动控制模型"想多深":
| 思考级别 | 适用场景 | 速度 |
|---|---|---|
| Minimal | 内容审核、简单分类 | 最快 |
| Low | 翻译、摘要 | 快 |
| Medium | 代码生成、数据分析 | 中等 |
| High | 复杂推理、数学证明 | 慢但准 |
这个设计思路很聪明------同一个模型,简单任务用 Minimal 省钱跑量,复杂任务切 High 保质量。不用在"选哪个模型"上纠结了。
实测对比:同一套代码跑两个模型
这是我测试的时候用的代码,改一行 model 就切模型:
python
from openai import OpenAI
# 一个 base_url 跑所有模型
client = OpenAI(
api_key="sk-xxx",
base_url="https://api.ofox.ai/v1"
)
def test_model(model_name, prompt):
import time
start = time.time()
resp = client.chat.completions.create(
model=model_name,
messages=[{"role": "user", "content": prompt}],
max_tokens=500
)
elapsed = time.time() - start
return resp.choices[0].message.content, elapsed
prompt = "解释一下什么是 WebSocket,100 字以内"
# 测 GPT-5.3
gpt_answer, gpt_time = test_model("gpt-5.3-chat-latest", prompt)
print(f"GPT-5.3: {gpt_time:.2f}s")
print(gpt_answer)
print("---")
# 测 Gemini 3.1 Flash-Lite
gem_answer, gem_time = test_model("gemini-3.1-flash-lite", prompt)
print(f"Gemini 3.1 Flash-Lite: {gem_time:.2f}s")
print(gem_answer)
跑出来大概这样(仅供参考,不同时段网络波动很大):
yaml
GPT-5.3: 1.83s
WebSocket 是一种全双工通信协议,让浏览器和服务器建立持久连接,
双方可以随时主动发消息,不用像 HTTP 那样每次都客户端先请求。
适合聊天、实时数据推送等场景。
---
Gemini 3.1 Flash-Lite: 0.92s
WebSocket 是一种网络通信协议,在客户端与服务器之间建立持久的双向连接。
与 HTTP 的请求-响应模式不同,WebSocket 允许双方随时发送数据,
常用于实时聊天、在线游戏和股票行情等场景。
速度上 Flash-Lite 确实快。内容质量两边都够用,GPT-5.3 的表述稍微自然一点。
到底该用哪个?
| 维度 | GPT-5.3 Instant | Gemini 3.1 Flash-Lite |
|---|---|---|
| 对话自然度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 响应速度 | 快 | 更快 |
| 价格 | 中等偏贵 | 便宜到哭 |
| 幻觉控制 | 很强(-26.8%) | 一般 |
| 批量任务 | 不太划算 | 天生干这个的 |
| 创意/对话 | 更自然 | 偏模板 |
| 可调思考深度 | ❌ | ✅ Thinking Levels |
我的实际选择:
- 用户聊天/客服 → GPT-5.3 Instant(说话终于像人了,幻觉也少)
- 批量翻译/分类/审核 → Gemini 3.1 Flash-Lite(便宜+快,Thinking Level 调 Low)
- 写代码 → 都行,GPT 略好但 Gemini 也够用
- 复杂推理 → Flash-Lite 开 High thinking,效果不错还比大模型便宜
一个开发上的建议
现在模型迭代太快了------昨天 OpenAI 和 Google 同天发,过两天 Anthropic 可能又来一个。每家都单独对接一遍 SDK?疯了。
我现在的做法是统一用一个 API 聚合服务。上面的测试代码就是这么写的------base_url 不变,model 字段改一下,GPT/Gemini/Claude 无缝切换。新模型发了改个 model 名字就跑,不用动对接代码。
我用的是 ofox.ai,50 多个模型一个 Key,国内直连不用折腾。模型上新速度对我来说够用,延迟也还行。当然市面上还有别的选择,按自己需求来。
最后
OpenAI 和 Google 同天发模型,释放了个信号:模型厂商开始卷"开发者体验"了。
不光跑分高就行------GPT-5.3 卷的是"好好说话",Gemini 3.1 Flash-Lite 卷的是"又便宜又快还能调思考深度"。
对开发者来说,选择越来越多,成本越来越低。就是跟着适配有点累 😮💨
以上测试基于 2026 年 3 月 3 日发布当天版本。GPT-5.2 Instant 将于 6 月 3 日退役,注意迁移。