
Shadow:刚刚,谷歌发布了Gemini 3.1 Pro 模型,多项指标再次领先,非常适合用于开发算法、复杂编程以及需要多步工作流执行的Agent场景。在机器学习研发挑战中,该模型将微调脚本的耗时从 300 秒极限压缩至 47 秒 ------ 不仅宣告了'手动调优'时代的落幕,甚至比顶尖人类专家(94 秒)还快了一倍。


以下为详细介绍:
1. Gemini 3.1 Pro
Gemini 3.1 Pro 是 Google Gemini 3 系列模型的最新迭代版本,是目前 Google 处理复杂任务最先进的原生多模态推理模型。它不仅能理解文本、音频、图像和视频,还能深度解析整个代码库,专为解决现实世界的复杂问题、强化逻辑推理、激发创造力以及进行战略规划而设计。
2. 在哪里可以使用?
Gemini 3.1 Pro 通过以下多种渠道分发,用户无需特定硬件即可使用:
- Gemini App:面向普通用户的交互界面。
- Google AI Studio & Gemini API:面向开发者进行快速开发和原型设计。
- Google Cloud / Vertex AI:提供企业级的托管服务。
- NotebookLM:用于深度学习和文档分析。
- Google Antigravity:特定的分发渠道之一。
我第一时间在Google AI Studio测试了下:制作一个记忆操作系统。

在生成过程提示可能的操作:Enjoy these tips while you wait

思考时间明显比Gemini 3 Pro更长。

注意一个细节,开始支持全栈应用的开发了,我看到框架已经使用express。

如果你想尝试vibe coding更多的应用,可以查阅最新书籍:
(私信加入读者群)
3. 性能提升(对比 Gemini 3 Pro)
根据谷歌的介绍 Gemini 3.1 Pro 在多个核心维度上较前代 Gemini 3 Pro 有了质的飞跃:

- 抽象推理能力的跨越式增长 :在 ARC-AGI-2 (抽象推理拼图)测试中,得分从 31.1% 飙升至 77.1% ,展示了极强的逻辑推演能力。
- 代理执行与搜索能力(Agentic Performance):
-
-
BrowseComp
(代理搜索任务)得分从 59.2% 提升至 85.9%。
-
APEX-Agents
(长程专业任务)得分从 18.4% 几乎翻倍至 33.5%。
-
MCP Atlas
(多步工作流)从 54.1% 提升至 69.2%。
-
- 编程与学术推理:
-
-
LiveCodeBench Pro
(竞赛编程)Elo 分数从 2439 提升至 2887。
-
Humanity's Last Exam
(学术推理)在无工具模式下从 37.5% 提升至 44.4%。
-
- 长文本与多模态理解:
-
-
MRCR v2
(长上下文性能)在 128k 平均值上从 77.0% 优化至 84.9%。
-
模型支持高达 100 万(1M)token 的超大输入上下文窗口。
-
- 安全性与情境意识 :在"深思模式"(Deep Think mode)下,模型表现出更强的情境意识,在某些挑战(如 Context size mod)中达到了近 100% 的成功率。
欢迎加入社群交流
更多:storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-1-Pro-Model-Card.pdf
