谁是最强编程大模型?横向对比Claude Opus 4.1、GPT-5、Gemini 2.5 Pro、Grok4

模型众多,该如何选择?

GPT-5:OpenAI的最新旗舰模型,统一智能系统,GPT-5 集成了多个模型,自动根据任务复杂度选择最适合的模型进行处理,多模态首选。

GPT-5 Thinking:GPT-5 系列中的一个特定模式,专为处理复杂任务而设计。适用于科学研究、复杂编程任务和高难度的逻辑推理等领域。

Gemini 2.5 Pro:谷歌最新模型,在写作、编程、数学、推理、科研等基准测试中,全部刷新SOTA。

Grok 4:马斯克发布的最新模型,多项测试全面刷新SOTA,数学、科研、推理首选。

DeepSeek R1 0528:国产之光,开源最强模型,在整体表现上已接近其他国际顶尖模型,已解决"服务器繁忙,请稍后再试"问题。

Claude独立网站 - 编程首选

Claude Opus 4.1:Claude Opus 4 在代理任务、真实世界编码和推理方面的升级版,Claude 4系列模型中最新、最强大的版本。

Claude Sonnet 4:以编程和写作能力为核心,支持Extended Thinking深度推理的扩展思考和Web search联网实时查询,可以构建project进行文件、项目代码复用、轻松构建AI智能体。

我们通过一道经典的华为OD算法题,对比一下Claude Opus 4.1、GPT-5、Gemini 2.5 Pro、Grok4的编程能力,看看孰强孰弱。

国内直接使用GPT-5

谷歌浏览器访问:www.nezhasoft.cloud

私信哪吒,备注体验ai,领取体验码。

还包含了GPT-5、GPT-5 Thinking、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

先说结论:

个人认为:Claude Opus 4.1 > GPT-5 > Gemini 2.5 Pro > Grok4

首先可以明确的是,四大模型给出的代码都没有bug,测试通过率都是100%,牛逼。

理由:

1、只有Claude Opus 4.1给出了边界测试用例。

2、GPT-5不是一次性完成,是通过多次连续提问,才给出了最后的答案,差评,但上下文较长,加分项。

3、GPT-5给出的解题思路较为简单。

4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测。

5、Grok4在最后提及对Java代码和其他语言的代码进行测试用例测试,一笔带过,差评。

6、只有Claude Opus 4.1给出了最后的总结(包含本次完成的任务、测试结果、核心算法总结)。

提示词如下:

请根据下面描述、用Java解答此题,类名为OdTest,通过控制台输入,比如Java的Scanner,(控制台输入输出时,不要有其他文字描述,只有测试用例即可),为代码添加详细的中文注释,

通过测试用例进行代码测试,如果不正确,请修改Java代码并优化。

根据输入输出描述,给出5个测试用例,通过Java代码测试,验证代码和测试用例的正确性,给出测试用例的解释说明。

输出Java代码的解题思路,采用了什么数据结构和算法,为什么采用这些数据结构和算法。

将正确的Java代码转为Python、JavaScript、C、C++写法,每行代码添加详细的中文注释,再输出

通过下面的测试用例对转化后的Python、JavaScript、C、C++代码进行测试,如果与输入输出不符,修正代码,重新测试

一、题目描述

孙悟空喜欢吃蟠桃,一天他乘守卫蟠桃园的天兵天将离开了而偷偷的来到王母娘娘的蟠桃园偷吃蟠桃。

已知蟠桃园有 N 棵蟠桃树,第 i 棵蟠桃树上有 N[i](大于 0)个蟠桃,天兵天将将在 H(不小于蟠桃树棵数)小时后回来。

孙悟空可以决定他吃蟠桃的速度 K(单位:个/小时),每个小时他会选择一颗蟠桃树,从中吃掉 K 个蟠桃,如果这棵树上的蟠桃数小于 K,他将吃掉这棵树上所有蟠桃,然后这一小时内不再吃其余蟠桃树上的蟠桃。

孙悟空喜欢慢慢吃,但仍想在天兵天将回来前将所有蟠桃吃完。

求孙悟空可以在 H 小时内吃掉所有蟠桃的最小速度 K(K 为整数)。

二、输入描述

从标准输入中读取一行数字,前面数字表示每棵数上蟠桃个数,最后的数字表示天兵天将将离开的时间。

三、输出描述

吃掉所有蟠桃的 最小速度 K(K 为整数)或 输入异常时输出 -1。

Claude Opus 4.1

准确性:通过本地IDEA自测,通过率100%

Claude Opus 4.1给出了详细的Java 代码、详细的代码注释、对Java代码进行测试、解题思路与算法分析(包含问题本质、采用的数据结构和算法)、测试用例及说明(包含边界用例)、其他编程语言代码、测试转换后的代码、最后的总结。

GPT-5

准确性:通过本地IDEA自测,通过率100%

首先需要明确一点,GPT-5是通过多次问答,才给出了详细的答案。

GPT-5给出了详细的Java 代码、详细的代码注释、对Java代码进行测试、解题思路与算法分析(包含解题思路、采用的数据结构和算法、解题步骤、复杂度分析、小总结)、测试用例及说明(不包含边界用例)、其他编程语言代码、测试转换后的代码。

解题思路与算法分析非常简单,不包含解题步骤、复杂度分析、小总结,差评。

Gemini 2.5 Pro

准确性:通过本地IDEA自测,通过率100%

Gemini 2.5 Pro给出了详细的Java 代码、详细的代码注释、解题思路与算法分析(包含解题思路、采用的数据结构和算法、复杂度分析)、测试用例及说明(不包含边界用例)、其他编程语言代码。

回答中没有明确表明:对Java代码和其他语言的代码进行测试用例测试。

没有最后的总结。

Grok4

准确性:通过本地IDEA自测,通过率100%

Grok4给出了详细的Java 代码、详细的代码注释、解题思路与算法分析(包含解题思路、采用的数据结构和算法)、测试用例及说明(不包含边界用例)、其他编程语言代码。

最后提及对Java代码和其他语言的代码进行测试用例测试,一笔带过,差评。

没有最后的总结。

相关推荐
mwq3012328 分钟前
如何使用 OpenAI API 构建Agents
openai·agent
青岛热心市民刘先生1 小时前
【问题记录】Claude Code 在 Windows 下 Alt+M 快捷键不好使的解决方案
claude
网络研究院5 小时前
OpenAI 的浏览器将使用 ChatGPT Agent 来控制浏览器
chatgpt
致Great18 小时前
DeepResearch开源与闭源方案对比
人工智能·chatgpt
星际码仔18 小时前
停止无脑“Vibe”!一行命令,让你的Claude变身编程导师、结对伙伴
ai编程·claude
张飞的猪大数据21 小时前
OpenAI 发布了 GPT-5,有哪些新特性值得关注?国内怎么使用GPT5?
gpt·chatgpt
安思派Anspire1 天前
测试18种RAG技术,找出最优方案(四)
aigc·openai·agent
belingud1 天前
不同模型回答差异的简单探讨
chatgpt·claude·deepseek
yaocheng的ai分身2 天前
ChatGPT 负责人谈情感依赖、广告和未来
chatgpt