Gemini 3.1 Pro 发布 3 天,我用同一个 API 跑了 3 家大模型横评,结果有点意外

2 月 19 号 Google 发了 Gemini 3.1 Pro,ARC-AGI-2 直接干到 77.1%,推理能力比上代翻了一倍。当时我正在写一个数据清洗脚本,看到消息直接放下手里的活开测 🤣

作为一个每天跟 AI API 打交道的独立开发者,新模型出来不测一下,等于白关注了。

测试方案

准备了一道「有坑」的编程题:一段有 3 个隐蔽 bug 的 Python 代码,让模型来找 bug 并修复。

为什么选 debug?因为这是最考验推理能力的场景之一,而且贴近实际工作。

选手:

  • Google Gemini 3.1 Pro(2月19号刚发布)
  • Anthropic Claude Opus 4.6(当前最强编码模型之一)
  • OpenAI GPT-5(老牌选手)

测试代码(故意埋了 3 个 bug):

python 复制代码
def merge_sorted_lists(list1, list2):
    """合并两个有序列表,返回新的有序列表"""
    result = []
    i, j = 0, 0
    
    while i < len(list1) and j < len(list2):
        if list1[i] <= list2[j]:
            result.append(list1[i])
            i += 1
        else:
            result.append(list2[j])
            i += 1  # Bug 1: 应该是 j += 1
    
    # Bug 2: 只处理了 list1 的剩余
    while i < len(list1):
        result.append(list1[i])
        i += 1
    
    return result  # Bug 3: 缺少 list2 剩余元素的处理


def process_data(data_list):
    """处理数据:去重、排序、合并"""
    seen = set()
    unique = []
    for item in data_list:
        if item not in seen:
            unique.append(item)
            seen.add(item)
    
    mid = len(unique) // 2
    left = sorted(unique[:mid])
    right = sorted(unique[mid:])
    
    return merge_sorted_lists(left, right)

# 测试
print(process_data([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]))

Prompt 统一用:「找出这段代码中的所有 bug,解释原因,并给出修复后的完整代码。」

实测结果

Gemini 3.1 Pro

⏱ 耗时 3.2 秒

找到了全部 3 个 bug ✅

分析逻辑非常清晰,每个 bug 给了行号 + 原因 + 影响范围。还额外指出了一个潜在优化点(item not in seen 在 set 中虽然是 O(1),但如果不需要保持插入顺序,可以直接用 set 去重)。

修复代码一次通过,无需追问。

加分项: 主动附了单元测试用例。

Claude Opus 4.6

⏱ 耗时 2.8 秒

同样找到全部 3 个 bug ✅

Claude 的风格更像在做 code review,会解释为什么这个 bug 难被发现------「因为当 list2 先耗尽时,list1 的 while 循环能正常收尾,测试用例恰好没覆盖 list2 更长的情况」。

修复代码一次通过。

加分项: 额外提供了 diff 格式的修改对比,实际工作中直接能用。

GPT-5

⏱ 耗时 4.1 秒

找到 2 个 bug ⚠️

Bug 1 和 Bug 3 找到了,但 Bug 2(缺少 list2 剩余处理)没有单独指出来------它用 result.extend(list1[i:]) 替换了 list1 的 while 循环,但忘了加 list2 那段 😂

需要追问一次才给出完整修复。

加分项: 注释最详细,适合学习场景。

结果汇总

模型 发现 bug 响应时间 一次修对
Gemini 3.1 Pro 3/3 ✅ 3.2s
Claude Opus 4.6 3/3 ✅ 2.8s
GPT-5 2/3 ⚠️ 4.1s

说实话 Gemini 3.1 Pro 超出预期。以前 Gemini 在代码能力上一直被压着,这次明显上了一个台阶。Google 说 ARC-AGI-2 翻倍不是吹的。

Claude 依然稳如老狗 🐕,code review 级别的分析在实际工作中最实用。

GPT-5 这次有点拉------可能是我运气不好,也可能正好踩到某个弱点。

来算笔账 💰

能力差不多的情况下,价格就很关键了:

模型 输入价格 输出价格 本次测试花费
Gemini 3.1 Pro ~$1.25/M ~$10/M ~$0.003
Claude Opus 4.6 ~$15/M ~$75/M ~$0.025
GPT-5 ~$10/M ~$30/M ~$0.010

价格为近似参考,各平台实际定价可能有差异

Gemini 3.1 Pro 单价基本是 Claude 的十分之一。当然 Opus 贵有贵的道理------那个 code review 级别的分析确实值这个价。

我现在的策略:日常简单任务用 Gemini,复杂重要场景用 Claude。

我的多模型工作流

说到多模型混用,不得不提一个踩过的坑:以前每换一个模型就要改一堆代码------API 地址不同、认证方式不同、返回格式不同,光维护这些差异就够喝一壶。

后来发现有些 API 聚合平台能一个 endpoint 调几十个模型。我现在用的是 ofox.ai,国内直连不用梯子,延迟也还行。最爽的是改一行 model 参数就能切模型:

python 复制代码
import openai

client = openai.OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-key"
)

models = ["gemini-3.1-pro", "claude-opus-4-6", "gpt-5"]

for model in models:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    print(f"\n{'='*50}")
    print(f"Model: {model}")
    print(resp.choices[0].message.content[:200])

这次横评就是这么跑的,改个 model name 就行,3 分钟出结果。

总结

Gemini 3.1 Pro 是 Google 近两年最值得一试的模型,推理能力确实肉眼可见地提升了。如果你的场景是日常编码辅助、数据分析、文档处理,强烈推荐试试,性价比极高。

但如果是需要极致代码审查能力的场景,Claude Opus 依然是首选。

2026 年了,别再死守一个模型了,多模型混用才是正确姿势 🚀


我是 ofox,独立开发者,每天跟各种 AI API 打交道。关注我,后续会继续做模型横评和 API 踩坑分享。

相关推荐
清水白石00810 小时前
Python 内存陷阱深度解析——浅拷贝、深拷贝与对象复制的正确姿势
开发语言·python
国家二级编程爱好者10 小时前
删除typora文档没有引用的资源文件
git·python
进击的雷神10 小时前
邮箱编码解码、国际电话验证、主办方过滤、多页面深度爬取——柬埔寨塑料展爬虫四大技术难关攻克纪实
爬虫·python
深蓝电商API11 小时前
多线程 vs 异步 vs 多进程爬虫性能对比
爬虫·python
进击的雷神11 小时前
相对路径拼接、TEL前缀清洗、多链接过滤、毫秒级延迟控制——日本东京塑料展爬虫四大技术难关攻克纪实
爬虫·python
云溪·11 小时前
Milvus向量数据库混合检索召回案例
python·ai·milvus
柒.梧.11 小时前
Java集合核心知识点深度解析:数组与集合区别、ArrayList原理及线程安全问题
java·开发语言·python
AsDuang12 小时前
Python 3.12 MagicMethods - 49 - __imatmul__
开发语言·python
小湘西12 小时前
拓扑排序(Topological Sort)
python·设计模式
北京地铁1号线12 小时前
快手面试题:全局解释器锁
python·gil