2 月 19 号 Google 发了 Gemini 3.1 Pro,ARC-AGI-2 直接干到 77.1%,推理能力比上代翻了一倍。当时我正在写一个数据清洗脚本,看到消息直接放下手里的活开测 🤣
作为一个每天跟 AI API 打交道的独立开发者,新模型出来不测一下,等于白关注了。
测试方案
准备了一道「有坑」的编程题:一段有 3 个隐蔽 bug 的 Python 代码,让模型来找 bug 并修复。
为什么选 debug?因为这是最考验推理能力的场景之一,而且贴近实际工作。
选手:
- Google Gemini 3.1 Pro(2月19号刚发布)
- Anthropic Claude Opus 4.6(当前最强编码模型之一)
- OpenAI GPT-5(老牌选手)
测试代码(故意埋了 3 个 bug):
python
def merge_sorted_lists(list1, list2):
"""合并两个有序列表,返回新的有序列表"""
result = []
i, j = 0, 0
while i < len(list1) and j < len(list2):
if list1[i] <= list2[j]:
result.append(list1[i])
i += 1
else:
result.append(list2[j])
i += 1 # Bug 1: 应该是 j += 1
# Bug 2: 只处理了 list1 的剩余
while i < len(list1):
result.append(list1[i])
i += 1
return result # Bug 3: 缺少 list2 剩余元素的处理
def process_data(data_list):
"""处理数据:去重、排序、合并"""
seen = set()
unique = []
for item in data_list:
if item not in seen:
unique.append(item)
seen.add(item)
mid = len(unique) // 2
left = sorted(unique[:mid])
right = sorted(unique[mid:])
return merge_sorted_lists(left, right)
# 测试
print(process_data([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]))
Prompt 统一用:「找出这段代码中的所有 bug,解释原因,并给出修复后的完整代码。」
实测结果
Gemini 3.1 Pro
⏱ 耗时 3.2 秒
找到了全部 3 个 bug ✅
分析逻辑非常清晰,每个 bug 给了行号 + 原因 + 影响范围。还额外指出了一个潜在优化点(item not in seen 在 set 中虽然是 O(1),但如果不需要保持插入顺序,可以直接用 set 去重)。
修复代码一次通过,无需追问。
加分项: 主动附了单元测试用例。
Claude Opus 4.6
⏱ 耗时 2.8 秒
同样找到全部 3 个 bug ✅
Claude 的风格更像在做 code review,会解释为什么这个 bug 难被发现------「因为当 list2 先耗尽时,list1 的 while 循环能正常收尾,测试用例恰好没覆盖 list2 更长的情况」。
修复代码一次通过。
加分项: 额外提供了 diff 格式的修改对比,实际工作中直接能用。
GPT-5
⏱ 耗时 4.1 秒
找到 2 个 bug ⚠️
Bug 1 和 Bug 3 找到了,但 Bug 2(缺少 list2 剩余处理)没有单独指出来------它用 result.extend(list1[i:]) 替换了 list1 的 while 循环,但忘了加 list2 那段 😂
需要追问一次才给出完整修复。
加分项: 注释最详细,适合学习场景。
结果汇总
| 模型 | 发现 bug | 响应时间 | 一次修对 |
|---|---|---|---|
| Gemini 3.1 Pro | 3/3 ✅ | 3.2s | ✅ |
| Claude Opus 4.6 | 3/3 ✅ | 2.8s | ✅ |
| GPT-5 | 2/3 ⚠️ | 4.1s | ❌ |
说实话 Gemini 3.1 Pro 超出预期。以前 Gemini 在代码能力上一直被压着,这次明显上了一个台阶。Google 说 ARC-AGI-2 翻倍不是吹的。
Claude 依然稳如老狗 🐕,code review 级别的分析在实际工作中最实用。
GPT-5 这次有点拉------可能是我运气不好,也可能正好踩到某个弱点。
来算笔账 💰
能力差不多的情况下,价格就很关键了:
| 模型 | 输入价格 | 输出价格 | 本次测试花费 |
|---|---|---|---|
| Gemini 3.1 Pro | ~$1.25/M | ~$10/M | ~$0.003 |
| Claude Opus 4.6 | ~$15/M | ~$75/M | ~$0.025 |
| GPT-5 | ~$10/M | ~$30/M | ~$0.010 |
价格为近似参考,各平台实际定价可能有差异
Gemini 3.1 Pro 单价基本是 Claude 的十分之一。当然 Opus 贵有贵的道理------那个 code review 级别的分析确实值这个价。
我现在的策略:日常简单任务用 Gemini,复杂重要场景用 Claude。
我的多模型工作流
说到多模型混用,不得不提一个踩过的坑:以前每换一个模型就要改一堆代码------API 地址不同、认证方式不同、返回格式不同,光维护这些差异就够喝一壶。
后来发现有些 API 聚合平台能一个 endpoint 调几十个模型。我现在用的是 ofox.ai,国内直连不用梯子,延迟也还行。最爽的是改一行 model 参数就能切模型:
python
import openai
client = openai.OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="your-key"
)
models = ["gemini-3.1-pro", "claude-opus-4-6", "gpt-5"]
for model in models:
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}]
)
print(f"\n{'='*50}")
print(f"Model: {model}")
print(resp.choices[0].message.content[:200])
这次横评就是这么跑的,改个 model name 就行,3 分钟出结果。
总结
Gemini 3.1 Pro 是 Google 近两年最值得一试的模型,推理能力确实肉眼可见地提升了。如果你的场景是日常编码辅助、数据分析、文档处理,强烈推荐试试,性价比极高。
但如果是需要极致代码审查能力的场景,Claude Opus 依然是首选。
2026 年了,别再死守一个模型了,多模型混用才是正确姿势 🚀
我是 ofox,独立开发者,每天跟各种 AI API 打交道。关注我,后续会继续做模型横评和 API 踩坑分享。