OpenAI深夜放大招!Codex-Max上线,与Gemini 3巅峰对决

两大AI巨头同时发力,两大编程助手谁强谁弱?

昨天,Gemini 3刚刚发布,就在AI领域掀起了不小的波澜。热度还没消退,昨晚OpenAI紧跟着推出了旗下最强编程模型------GPT-5.1-Codex-Max。

两大AI巨头接连出牌,让这场模型之争陡然升温。

那么,这款新发布的GPT-5.1-Codex-Max与Gemini 3究竟有何不同?

性能表现

GPT-5.1-Codex-Max被OpenAI称为"代理性"编码模型,其核心优势在于处理那些需要长时间专注的复杂工程任务。根据OpenAI的介绍,该模型在内部测试中能够持续工作超过24小时,处理诸如修复测试失败、迭代实现等任务。

这种持久作战能力得益于一项名为"压缩"的技术。当模型的上下文窗口被填满时,它会自动压缩会话历史,保留关键信息并丢弃不重要的细节,从而在数百万个token的跨度中保持对核心任务的跟踪。

这种机制使得GPT-5.1-Codex-Max成为首个能够在多个上下文窗口中以这种方式本地训练的模型。

在性能表现上,GPT-5.1-Codex-Max在SWE-Bench Verified测试中达到了77.9%的得分,在SWE-Lancer IC SWE测评中更是达到79.9%。

它在保持质量的同时,比前代模型减少了30%的"思考token"使用量,在现实任务中的运行速度也快了27%至42%。

Gemini 3的全方位挑战

谷歌的Gemini 3则呈现出不同的优势特点。根据官方测试数据,Gemini 3在多项基准测试中表现出色,在GPQA Diamond上达到91.9%的分数,展示了博士级别的推理能力。

Gemini 3的亮点在于其生成式体验功能,能够直接在浏览器中构建动画和交互式UI界面来解释复杂概念。比如,它可以生成完全交互式的利率计算器,包含滑块、可编辑文本字段、彩色表格等丰富的网页元素。

谷歌还增强了Gemini 3的代理能力,使其能够处理多步骤命令。例如,你可以要求聊天机器人为你的下一次旅行预订车辆,它不仅会查看电子邮件,还会通过模拟浏览器浏览互联网,从租赁机构找到可用车辆。

从两者的特性来看,OpenAI选择了深度专业化的路线,专门针对编程任务优化,尤其是那些需要长时间专注的复杂工作。而谷歌则采取了全面发展的策略,使Gemini 3在推理、多模态理解和交互体验上都有出色表现。

目前,GPT-5.1-Codex-Max现已向ChatGPT Plus、Pro、Team、Edu和Enterprise用户开放。使用限制因订阅类型而异,Plus用户每5小时可发送45至225条本地消息和10至60条云任务,而Pro用户则享有更多容量。

Gemini 3也遵循类似的免费增值模式,几乎所有功能都向免费用户开放,但高级功能需要订阅。

对于注重成本效益的开发者,GPT-5.1-Codex-Max在效率上的提升可能带来长期收益。思考token减少30%意味着在处理复杂任务时能够更快地获得结果,同时可能降低使用成本。

对于开发者社区而言,这种竞争最终将带来更好的工具和更高的工作效率。随着这些AI助手不断进化,它们将承担越来越多繁琐和耗时的编程任务,让我们能够专注于真正需要人类创造力和判断力的工作。

两款顶级AI编程助手你挺谁?欢迎在评论区交流讨论!

写在最后:如果您正在进行AI领域的创业或研究,却受困于高昂的算力成本或高并发下的推理稳定性等问题,欢迎留言或私信我们,找到您的降本增效突破口~

相关推荐
还不秃顶的计科生4 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
九河云4 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
Elastic 中国社区官方博客4 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
大模型真好玩4 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心4 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥5 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent
陈佬昔没带相机5 小时前
MiniMax M2 + Trae 编码评测:能否与 Claude 4.5 扳手腕?
前端·人工智能·ai编程
美狐美颜SDK开放平台5 小时前
从0到1开发直播美颜SDK:算法架构、模型部署与跨端适配指南
人工智能·架构·美颜sdk·直播美颜sdk·第三方美颜sdk·美狐美颜sdk
小陈phd5 小时前
RAG从入门到精通(四)——结构化数据读取与导入
人工智能·langchain
NocoBase5 小时前
NocoBase 本周更新汇总:新增图表配置的 Al 员工
低代码·开源·资讯