Gemini 3.1 Pro 发布 3 天，我用同一个 API 跑了 3 家大模型横评，结果有点意外

2 月 19 号 Google 发了 Gemini 3.1 Pro，ARC-AGI-2 直接干到 77.1%，推理能力比上代翻了一倍。当时我正在写一个数据清洗脚本，看到消息直接放下手里的活开测 🤣

作为一个每天跟 AI API 打交道的独立开发者，新模型出来不测一下，等于白关注了。

测试方案

准备了一道「有坑」的编程题：一段有 3 个隐蔽 bug 的 Python 代码，让模型来找 bug 并修复。

为什么选 debug？因为这是最考验推理能力的场景之一，而且贴近实际工作。

选手：

Google Gemini 3.1 Pro（2月19号刚发布）
Anthropic Claude Opus 4.6（当前最强编码模型之一）
OpenAI GPT-5（老牌选手）

测试代码（故意埋了 3 个 bug）：

python 复制代码

def merge_sorted_lists(list1, list2):
    """合并两个有序列表，返回新的有序列表"""
    result = []
    i, j = 0, 0
    
    while i < len(list1) and j < len(list2):
        if list1[i] <= list2[j]:
            result.append(list1[i])
            i += 1
        else:
            result.append(list2[j])
            i += 1  # Bug 1: 应该是 j += 1
    
    # Bug 2: 只处理了 list1 的剩余
    while i < len(list1):
        result.append(list1[i])
        i += 1
    
    return result  # Bug 3: 缺少 list2 剩余元素的处理


def process_data(data_list):
    """处理数据：去重、排序、合并"""
    seen = set()
    unique = []
    for item in data_list:
        if item not in seen:
            unique.append(item)
            seen.add(item)
    
    mid = len(unique) // 2
    left = sorted(unique[:mid])
    right = sorted(unique[mid:])
    
    return merge_sorted_lists(left, right)

# 测试
print(process_data([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]))

Prompt 统一用：「找出这段代码中的所有 bug，解释原因，并给出修复后的完整代码。」

实测结果

Gemini 3.1 Pro

⏱ 耗时 3.2 秒

找到了全部 3 个 bug ✅

分析逻辑非常清晰，每个 bug 给了行号 + 原因 + 影响范围。还额外指出了一个潜在优化点（item not in seen 在 set 中虽然是 O(1)，但如果不需要保持插入顺序，可以直接用 set 去重）。

修复代码一次通过，无需追问。

加分项： 主动附了单元测试用例。

Claude Opus 4.6

⏱ 耗时 2.8 秒

同样找到全部 3 个 bug ✅

Claude 的风格更像在做 code review，会解释为什么这个 bug 难被发现------「因为当 list2 先耗尽时，list1 的 while 循环能正常收尾，测试用例恰好没覆盖 list2 更长的情况」。

修复代码一次通过。

加分项： 额外提供了 diff 格式的修改对比，实际工作中直接能用。

GPT-5

⏱ 耗时 4.1 秒

找到 2 个 bug ⚠️

Bug 1 和 Bug 3 找到了，但 Bug 2（缺少 list2 剩余处理）没有单独指出来------它用 result.extend(list1[i:]) 替换了 list1 的 while 循环，但忘了加 list2 那段 😂

需要追问一次才给出完整修复。

加分项： 注释最详细，适合学习场景。

结果汇总

模型	发现 bug	响应时间	一次修对
Gemini 3.1 Pro	3/3 ✅	3.2s	✅
Claude Opus 4.6	3/3 ✅	2.8s	✅
GPT-5	2/3 ⚠️	4.1s	❌

说实话 Gemini 3.1 Pro 超出预期。以前 Gemini 在代码能力上一直被压着，这次明显上了一个台阶。Google 说 ARC-AGI-2 翻倍不是吹的。

Claude 依然稳如老狗 🐕，code review 级别的分析在实际工作中最实用。

GPT-5 这次有点拉------可能是我运气不好，也可能正好踩到某个弱点。

来算笔账 💰

能力差不多的情况下，价格就很关键了：

模型	输入价格	输出价格	本次测试花费
Gemini 3.1 Pro	~$1.25/M	~$10/M	~$0.003
Claude Opus 4.6	~$15/M	~$75/M	~$0.025
GPT-5	~$10/M	~$30/M	~$0.010

价格为近似参考，各平台实际定价可能有差异

Gemini 3.1 Pro 单价基本是 Claude 的十分之一。当然 Opus 贵有贵的道理------那个 code review 级别的分析确实值这个价。

我现在的策略：日常简单任务用 Gemini，复杂重要场景用 Claude。

我的多模型工作流

说到多模型混用，不得不提一个踩过的坑：以前每换一个模型就要改一堆代码------API 地址不同、认证方式不同、返回格式不同，光维护这些差异就够喝一壶。

后来发现有些 API 聚合平台能一个 endpoint 调几十个模型。我现在用的是 ofox.ai，国内直连不用梯子，延迟也还行。最爽的是改一行 model 参数就能切模型：

python 复制代码

import openai

client = openai.OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-key"
)

models = ["gemini-3.1-pro", "claude-opus-4-6", "gpt-5"]

for model in models:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    print(f"\n{'='*50}")
    print(f"Model: {model}")
    print(resp.choices[0].message.content[:200])

这次横评就是这么跑的，改个 model name 就行，3 分钟出结果。

总结

Gemini 3.1 Pro 是 Google 近两年最值得一试的模型，推理能力确实肉眼可见地提升了。如果你的场景是日常编码辅助、数据分析、文档处理，强烈推荐试试，性价比极高。

但如果是需要极致代码审查能力的场景，Claude Opus 依然是首选。

2026 年了，别再死守一个模型了，多模型混用才是正确姿势 🚀

我是 ofox，独立开发者，每天跟各种 AI API 打交道。关注我，后续会继续做模型横评和 API 踩坑分享。