OpenAI深夜放大招！Codex-Max上线，与Gemini 3巅峰对决

两大AI巨头同时发力，两大编程助手谁强谁弱？

昨天，Gemini 3刚刚发布，就在AI领域掀起了不小的波澜。热度还没消退，昨晚OpenAI紧跟着推出了旗下最强编程模型------GPT-5.1-Codex-Max。

两大AI巨头接连出牌，让这场模型之争陡然升温。

那么，这款新发布的GPT-5.1-Codex-Max与Gemini 3究竟有何不同？

性能表现

GPT-5.1-Codex-Max被OpenAI称为"代理性"编码模型，其核心优势在于处理那些需要长时间专注的复杂工程任务。根据OpenAI的介绍，该模型在内部测试中能够持续工作超过24小时，处理诸如修复测试失败、迭代实现等任务。

这种持久作战能力得益于一项名为"压缩"的技术。当模型的上下文窗口被填满时，它会自动压缩会话历史，保留关键信息并丢弃不重要的细节，从而在数百万个token的跨度中保持对核心任务的跟踪。

这种机制使得GPT-5.1-Codex-Max成为首个能够在多个上下文窗口中以这种方式本地训练的模型。

在性能表现上，GPT-5.1-Codex-Max在SWE-Bench Verified测试中达到了77.9%的得分，在SWE-Lancer IC SWE测评中更是达到79.9%。

它在保持质量的同时，比前代模型减少了30%的"思考token"使用量，在现实任务中的运行速度也快了27%至42%。

Gemini 3的全方位挑战

谷歌的Gemini 3则呈现出不同的优势特点。根据官方测试数据，Gemini 3在多项基准测试中表现出色，在GPQA Diamond上达到91.9%的分数，展示了博士级别的推理能力。

Gemini 3的亮点在于其生成式体验功能，能够直接在浏览器中构建动画和交互式UI界面来解释复杂概念。比如，它可以生成完全交互式的利率计算器，包含滑块、可编辑文本字段、彩色表格等丰富的网页元素。

谷歌还增强了Gemini 3的代理能力，使其能够处理多步骤命令。例如，你可以要求聊天机器人为你的下一次旅行预订车辆，它不仅会查看电子邮件，还会通过模拟浏览器浏览互联网，从租赁机构找到可用车辆。

从两者的特性来看，OpenAI选择了深度专业化的路线，专门针对编程任务优化，尤其是那些需要长时间专注的复杂工作。而谷歌则采取了全面发展的策略，使Gemini 3在推理、多模态理解和交互体验上都有出色表现。

目前，GPT-5.1-Codex-Max现已向ChatGPT Plus、Pro、Team、Edu和Enterprise用户开放。使用限制因订阅类型而异，Plus用户每5小时可发送45至225条本地消息和10至60条云任务，而Pro用户则享有更多容量。

Gemini 3也遵循类似的免费增值模式，几乎所有功能都向免费用户开放，但高级功能需要订阅。

对于注重成本效益的开发者，GPT-5.1-Codex-Max在效率上的提升可能带来长期收益。思考token减少30%意味着在处理复杂任务时能够更快地获得结果，同时可能降低使用成本。

对于开发者社区而言，这种竞争最终将带来更好的工具和更高的工作效率。随着这些AI助手不断进化，它们将承担越来越多繁琐和耗时的编程任务，让我们能够专注于真正需要人类创造力和判断力的工作。

两款顶级AI编程助手你挺谁？欢迎在评论区交流讨论！

写在最后：如果您正在进行AI领域的创业或研究，却受困于高昂的算力成本或高并发下的推理稳定性等问题，欢迎留言或私信我们，找到您的降本增效突破口~