OpenAI深夜放大招!Codex-Max上线,与Gemini 3巅峰对决

两大AI巨头同时发力,两大编程助手谁强谁弱?

昨天,Gemini 3刚刚发布,就在AI领域掀起了不小的波澜。热度还没消退,昨晚OpenAI紧跟着推出了旗下最强编程模型------GPT-5.1-Codex-Max。

两大AI巨头接连出牌,让这场模型之争陡然升温。

那么,这款新发布的GPT-5.1-Codex-Max与Gemini 3究竟有何不同?

性能表现

GPT-5.1-Codex-Max被OpenAI称为"代理性"编码模型,其核心优势在于处理那些需要长时间专注的复杂工程任务。根据OpenAI的介绍,该模型在内部测试中能够持续工作超过24小时,处理诸如修复测试失败、迭代实现等任务。

这种持久作战能力得益于一项名为"压缩"的技术。当模型的上下文窗口被填满时,它会自动压缩会话历史,保留关键信息并丢弃不重要的细节,从而在数百万个token的跨度中保持对核心任务的跟踪。

这种机制使得GPT-5.1-Codex-Max成为首个能够在多个上下文窗口中以这种方式本地训练的模型。

在性能表现上,GPT-5.1-Codex-Max在SWE-Bench Verified测试中达到了77.9%的得分,在SWE-Lancer IC SWE测评中更是达到79.9%。

它在保持质量的同时,比前代模型减少了30%的"思考token"使用量,在现实任务中的运行速度也快了27%至42%。

Gemini 3的全方位挑战

谷歌的Gemini 3则呈现出不同的优势特点。根据官方测试数据,Gemini 3在多项基准测试中表现出色,在GPQA Diamond上达到91.9%的分数,展示了博士级别的推理能力。

Gemini 3的亮点在于其生成式体验功能,能够直接在浏览器中构建动画和交互式UI界面来解释复杂概念。比如,它可以生成完全交互式的利率计算器,包含滑块、可编辑文本字段、彩色表格等丰富的网页元素。

谷歌还增强了Gemini 3的代理能力,使其能够处理多步骤命令。例如,你可以要求聊天机器人为你的下一次旅行预订车辆,它不仅会查看电子邮件,还会通过模拟浏览器浏览互联网,从租赁机构找到可用车辆。

从两者的特性来看,OpenAI选择了深度专业化的路线,专门针对编程任务优化,尤其是那些需要长时间专注的复杂工作。而谷歌则采取了全面发展的策略,使Gemini 3在推理、多模态理解和交互体验上都有出色表现。

目前,GPT-5.1-Codex-Max现已向ChatGPT Plus、Pro、Team、Edu和Enterprise用户开放。使用限制因订阅类型而异,Plus用户每5小时可发送45至225条本地消息和10至60条云任务,而Pro用户则享有更多容量。

Gemini 3也遵循类似的免费增值模式,几乎所有功能都向免费用户开放,但高级功能需要订阅。

对于注重成本效益的开发者,GPT-5.1-Codex-Max在效率上的提升可能带来长期收益。思考token减少30%意味着在处理复杂任务时能够更快地获得结果,同时可能降低使用成本。

对于开发者社区而言,这种竞争最终将带来更好的工具和更高的工作效率。随着这些AI助手不断进化,它们将承担越来越多繁琐和耗时的编程任务,让我们能够专注于真正需要人类创造力和判断力的工作。

两款顶级AI编程助手你挺谁?欢迎在评论区交流讨论!

写在最后:如果您正在进行AI领域的创业或研究,却受困于高昂的算力成本或高并发下的推理稳定性等问题,欢迎留言或私信我们,找到您的降本增效突破口~

相关推荐
Raink老师2 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1232 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师2 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学2 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak2 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen2 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师2 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史2 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间3 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间3 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板