16项测试赢了13项!Gemini 3.1 Pro碾压GPT-5.2和Claude

昨天晚上(2月19号),老金我刷到一条消息------Google发布了 Gemini 3.1 Pro。

说实话,第一反应是"又更新?Gemini 3 Pro去年11月才出,这才3个月就搞.1版本?" 谷歌你是不是太急了。

但老金我点进官方博客一看,卧槽。 ARC-AGI-2推理测试,得分从31.1%直接飙到77.1%。 推理能力翻了不止一倍,价格跟上一代完全一样。

老金我今天花了一上午扒完所有公开资料。 5大核心升级,一次给你讲清楚。

最炸裂的升级:推理能力暴涨148%

这次Gemini 3.1 Pro最大的看点就一个------推理。

ARC-AGI-2 是目前业界公认最难的推理测试之一,专门考AI"举一反三"的能力。 不是靠死记硬背能过的,得真的理解题目里的模式,然后推导出答案。

上一代Gemini 3 Pro得分31.1%。 这次直接干到77.1%,涨了46个百分点,涨幅148%。

77.1%是什么水平?横向对比一下:

比Claude Opus 4.6高了8.3个百分点,比GPT-5.2高了24.2个百分点。 谷歌第一次在推理赛道上,把OpenAI和Anthropic同时甩在身后。

16项测试赢了13项:不过也不是全赢

推理最亮眼,但其他方面呢?

根据Google公布的数据,Gemini 3.1 Pro在16项标准测试中拿下了13项第一。 老金我挑几个最关键的说:

几个关键数字解读一下。

GPQA Diamond 94.3%,考的是研究生级别的科学难题。 94.3%意味着在物理、化学、生物这些硬核学科上,答题水平超过了大部分研究生。

SWE-Bench Verified 80.6%,这个对程序员最重要。 用真实GitHub issue来测AI能不能修bug,十个真实bug能修八个,已经非常实用了。

但老金我必须说句公道话------Claude也没输透。

SWE-Bench上Claude Opus 4.6以80.8%微微领先。 GDPval-AA专家任务测试里,Claude Sonnet 4.6拿了1633分,Gemini 3.1 Pro只有1317分,差距不小。 Humanity's Last Exam(工具辅助版),Claude也赢了,53.1%对51.4%。

所以真实情况是:Gemini 3.1 Pro在大部分测试上确实领先,但在专家级任务和部分场景上,Claude仍然有优势。 不是某一家全面碾压,而是各有各的强项。


最容易被忽略的升级:SVG生成和Agent能力

这两个升级很多人可能没注意到,但老金我觉得挺重要。

第一个是 SVG文件生成 大幅提升。 SVG就是网页上常用的矢量图格式(做数据可视化、图标、交互图表都靠它)。 Gemini 3.1 Pro在这方面比上一代有了质的飞跃。

Google给了一个很硬核的demo。 让Gemini 3.1 Pro独立配置了一个公开遥测数据流,实时可视化国际空间站的轨道,做成了一个航空航天仪表盘。

注意关键词:独立配置。 不是"帮你写段代码你自己跑",而是AI自己找数据源、自己生成可视化、自己搭了一个能跑的仪表盘。

这已经是真正的 Agent能力 了------给它一个目标,它自己想办法搞定。

Google也明确说了,后续会继续优化在"ambitious agentic workflows"上的表现。 翻译成大白话就是:让AI能独立完成更复杂的多步骤任务。

如果对你有帮助,记得关注一波~


价格不变渠道拉满:诚意确实到位

重要的事情说三遍:价格没涨。

跟Gemini 3 Pro完全一样的价格,性能翻倍升级。 100万token的上下文窗口也保留了,能塞进去的信息量还是业界天花板。

能在哪用?渠道铺得很开:

消费端:Gemini App(Pro和Ultra用户)、NotebookLM 开发端:Gemini API、Google AI Studio、Gemini CLI、Google Antigravity、Android Studio 企业端:Vertex AI、Gemini Enterprise 微软端:GitHub Copilot、Visual Studio、VS Code

对,你没看错。 GitHub Copilot现在也能选Gemini 3.1 Pro做底层模型了。 Google的模型跑在微软的产品里------放在两年前这是不可想象的。

另外这次还有个细节值得注意:这是Google第一次用.1版本号做中期更新。 以前Gemini的中期迭代都是.5(比如1.5、2.5),这次改成.1,说明更新节奏在加快。

老金我的建议

说了这么多好的,老金我也得泼盆冷水。

第一,目前是 Preview状态。 Google自己说了还在调优,特别是Agent工作流方面。 Preview就意味着可能有bug、可能改API,生产环境别急着上。

第二,benchmark分数高不等于什么都强。 ARC-AGI-2考的是模式推理,但你日常用AI写代码、写文章、做分析,推理只是其中一个维度。 前面也说了,Claude在专家任务上依然强势,GPT在通用对话上也有自己的优势。

第三,这些数据都是Google自己报的。 第三方独立验证还没出来,等更多人实测之后结论会更靠谱。

总的来说,Gemini 3.1 Pro这次升级确实有料。 推理翻倍、16项测试赢13项、价格不变、渠道拉满,诚意是实打实的。

老金我的建议: 开发者可以先在Google AI Studio上试试,API价格跟上代一样,试错成本很低。 普通用户有Gemini Pro或Ultra订阅的,直接在App里就能用上了。 没订阅的别着急,等正式版出来再考虑也不迟。

你们觉得Gemini 3.1 Pro这次升级怎么样? 评论区聊聊,老金我很好奇你们的看法。


往期推荐:

AI编程教程列表 提示词工工程(Prompt Engineering) LLMOPS(大语言模运维平台) AI绘画教程列表 WX机器人教程列表


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。 我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。 我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。 如果觉得不错,随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址(实时更新交流群 ): tffyvtlai4.feishu.cn/wiki/OhQ8wq...

Claude Code 全中文从零开始的教程:老金开源10万字Claude Code中文教程,零基础到企业实战完整路径

开源项目请参考这里写的:公众号写作2年,从几十到几千阅读量,我靠这3件事做到的

相关推荐
是小蟹呀^1 小时前
低质量人脸识别的两条技术路线:FIE与CSM详解
人工智能
DevilSeagull1 小时前
LangChain & LangGraph 介绍
人工智能·程序人生·langchain·大模型·llm·vibe coding
TechubNews1 小时前
燦谷(Cango Inc)入局AI 資本重組彰顯決心
大数据·网络·人工智能·区块链
MaoziShan1 小时前
CMU Subword Modeling | 10 Grammatical Properties
人工智能·语言模型·自然语言处理
一切尽在,你来1 小时前
AI 大模型应用开发前置知识:Python 泛型编程全教程
开发语言·人工智能·python·ai编程
黑巧克力可减脂2 小时前
AI做心理咨询:当科技有温度,让治愈不缺席
人工智能·科技·语言模型·重构
倔强青铜三2 小时前
2026年Claude Code必备插件清单,第3个让我爱不释手
人工智能·ai编程·claude
艾莉丝努力练剑2 小时前
【Linux:文件】进程间通信
linux·运维·服务器·c语言·网络·c++·人工智能
MoonOutCloudBack2 小时前
VeRL 框架中的奖励 (reward) 与奖励模型:从 PPO 配置到实现细节
人工智能·深度学习·语言模型·自然语言处理