多项日常使用测试,带你了解如何选择AI工具 Deepseek VS ChatGpt VS Claude
注:因为考虑到绝大部分人的使用,我这里所用的模型均为免费模型。官方可访问的。ChatGPT这里用的是4o
Ai对话,编程一直以来都是人们所讨论的话题。Ai的出现让很多工作变得方便且快速,一切高级程序员不再需要花费大量的时间去做一些重复的工作,可以把重心放到逻辑的优化,资源的优化上。
作为一名普通的程序员,或者是我们日常生活中扮演的各种角色,我们应该如何选择Ai模型,下面我将进行一个测试,祝你快速的比对先有的Ai。
测试对象是目前表现最好的Ai
评分标准如下
这里是每道题正确为5分,每一个板块我会问1~3个问题
我会在一个板块结束后,统一的给每个Ai自己的主观分数为5分
逻辑推理
题目1
猜牌问题S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4黑桃J、8、4、2、7、3草花K、Q、5、4、6方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:P先生:我不知道这张牌。Q先生:我知道你不知道这张牌。P先生:现在我知道这张牌了。Q先生:我也知道了。听罢以上的对话,S先生想了一想之后,就正确地推出这张牌是什么牌。请问:这张牌是什么牌?
首先是chat在极快的速度内给出了答案。
Claude在这里的回答错误。
并且在我已经告诉他错了之后他还是没有推理出来。
然后是deepseek也是给出了标准了答案。
并且在他的深度思考里面给出了个这样的话:
他的深度思考会不断的去验证确定自己的答案,因此这里主观我也给5分
题目2
一个教授逻辑学的教授,有三个学生,而且三个学生均非常聪明!一天教授给他们出了一个题,教授在每个人脑门上贴了一张纸条并告诉他们,每个人的纸条上都写了一个正整数,且某两个数的和等于第三个!(每个人可以看见另两个数,但看不见自己的)教授问第一个学生:你能猜出自己的数吗?回答:不能,问第二个,不能,第三个,不能,再问第一个,不能,第二个,不能,第三个:我猜出来了,是144!教授很满意的笑了。请问您能猜出另外两个人的数吗?
chat依旧是迅速的给出了答案
但是很可惜,这个答案不对,并且我告诉他错了之后,依旧还是这个答案
我们的deekseep在经过了长达4 5分钟的思考后,给出了答案,他的推理过程很长,我看了看,大概就是穷举法的。但是是这三个模型里面唯一一个做对的。
之后是Claude 依旧没有做对。
题目3
一个人花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一个人。问他赚了多少?
这个题是一个非常简单的题目。
这里也是所有的AI都答对了。
数学问题
题目1 高考原题
chat这里给出来的答案是B
是错误的。
并且我确定了他没有读错题
Claude这里也是解答错误了
只有deepseek这里是回答正确了
题目2
直线x+2y+3=0的斜率和在y轴上的截距分别是
这一题是全部都答对了。
弱智吧问题
这里没有对错,只有主观评分
题目1
只切一刀,如何把四个橘子分给四个小朋友?
这里不得不说一下Claude的回答给我看笑了
ChatGPT和这个差不多的
但是deepseek给出了一个很好的答案
很体现了严谨性
他看出来了橘子可以直接分配,但是因为题目要求必须切一刀,所以说他选择了这个方式。
问题2
不孕不育会遗传吗?
在这一轮他们三个的表现都不怎么样,都没有意识到,不孕不育就没有孩子了,就没有遗传这一说法。
生活问题
问题1
我春节要去游玩,请你给我准备一个武汉旅行的攻略。要求预算3000以内的
首先是chat 觉得还是很不错的
之后是deepseek也是非常详细的
至于Claude 这里就不放图了,很一般。
力扣算法
这里我会根据力扣的评分来给模型进行评分
问题1
给你一个字符串
s
、一个字符串t
。返回s
中涵盖t
所有字符的最小子串。如果s
中不存在涵盖t
所有字符的子串,则返回空字符串""
。注意:
- 对于
t
中重复字符,我们寻找的子字符串中该字符数量必须不少于t
中该字符数量。- 如果
s
中存在这样的子串,我们保证它是唯一的答案。示例 1:
输入:s = "ADOBECODEBANC", t = "ABC" 输出:"BANC" 解释:最小覆盖子串 "BANC" 包含来自字符串 t 的 'A'、'B' 和 'C'。
示例 2:
输入:s = "a", t = "a" 输出:"a" 解释:整个字符串 s 是最小覆盖子串。
示例 3:
输入: s = "a", t = "aa" 输出: "" 解释: t 中两个字符 'a' 均应包含在 s 的子串中, 因此没有符合条件的子字符串,返回空字符串。
提示:
m == s.length
n == t.length
1 <= m, n <= 105
s
和t
由英文字母组成**进阶:**你能设计一个在
o(m+n)
时间内解决此问题的算法吗?
chatgpt结果:
deepseek的相对来说比较快一些
之后是claude的
题目2
给你一个链表数组,每个链表都已经按升序排列。
请你将所有链表合并到一个升序链表中,返回合并后的链表。
示例 1:
输入:lists = [[1,4,5],[1,3,4],[2,6]] 输出:[1,1,2,3,4,4,5,6] 解释:链表数组如下: [ 1->4->5, 1->3->4, 2->6 ] 将它们合并到一个有序链表中得到。 1->1->2->3->4->4->5->6
示例 2:
输入:lists = [] 输出:[]
示例 3:
输入:lists = [[]] 输出:[]
提示:
k == lists.length
0 <= k <= 10^4
0 <= lists[i].length <= 500
-10^4 <= lists[i][j] <= 10^4
lists[i]
按 升序 排列lists[i].length
的总和不超过10^4
先看Claude的
之后看ChatGPT的
之后是deepseek的
在这一题上 三个的差距不是很大。
题目3
给你一个只包含
'('
和')'
的字符串,找出最长有效(格式正确且连续)括号子串
的长度。
示例 1:
输入:s = "(()" 输出:2 解释:最长有效括号子串是 "()"
示例 2:
输入:s = ")()())" 输出:4 解释:最长有效括号子串是 "()()"
示例 3:
输入:s = "" 输出:0
提示:
0 <= s.length <= 3 * 104
s[i]
为'('
或')'
因为这一题比较简单,所以我对这些模型进行了二次提问,让他们寻找最优解。
这个是chat的
这里claude的最优解用到了动态规划 但是很明显不是最快的
deepseek这里也是 没有达到最优的情况
代码生成方面
网页方面
这里我选择了一个支付页面的搭建。当然这里就主要在于模拟。
请你帮我弄一个支付页面的网页搭建,不需要真正的实现支付的功能。
下面是我的要求:
1.界面要求美观,能够体现出我们这个产品的一个主题。我们这个是一个知识付费系统。有三个价位的会员方式。
2.要求能给于用户一定的视觉触感,激发人付款的欲望。
3.我要求你实现一些事件的交互,比如点击支付后,能跳转到一个支付成功的页面之类的。
4.请你发挥你自己的想象,添加一些其他的内容。
首先是chat的生成
之后来看Claude
这里需要夸一下Claude的
他是一个这样的形式,可以直接进行一个预览
并且界面上来说是非常的美观的
所以对于网页的生成,claude可以说是非常的厉害的。
之后是deepseek 也是可以运行代码的。
这个效果也是非常的不错的
后端方面
这里我选择了一个会员付费系统的一个CRUD操作
现在我需要你用springboot的技术来完成下面的操作:
我们的系统现在有一个会员收费的系统的功能,你需要写出来后端的代码,来对接这个操作。具体包括:数据库的设计、测试数据的插入、springboot代码的编写。我要求你给我写俩个接口,一个是查看这个用户是否是会员的接口,一个是给这个用户开通会员的接口
关于chatgpt
我这里测试了是可以用的并且他的数据库设计比较完整。
用到了MVC的一个分层结构,是很不错的一个习惯。
并且还有测试类。
关于Claude 他在返回结果方面是用到了封装的返回结果。
这个比ChatGPT上,更加的接近实际的开发。
但是对于deepseek 在数据库设计上 设计的非常的少,考虑的字段较少
爬虫方面
在这个方面没有什么好说的,我平常接单方面用的就是ChatGPT,其他俩个在对于这个方面,表现不算很好。我这里也就不详细的举例说明了。
文本翻译方面
这里我对多个语句让Ai进行翻译。
Fading is true while flowering is past
凋谢是真实的 盛开只是一种过去
这里chat给出来的回答是褪色为真,而开花已逝。
deepseek的是:凋谢才是真实,盛开已成过去。
claude的是:凋零为真,盛开已逝
If you weeped for the missing sunset,you would miss all the shining stars
如果你为着错过夕阳而哭泣,那么你就要错群星了
chat:如果你为错过的日落而哭泣,你将错过所有闪耀的星星。
deepseek: 如果你为逝去的日落哭泣,就会错过所有闪耀的繁星。
claude:如果你为错过的落日而哭泣,你将错过所有闪耀的星辰。
然后是一篇高考英语作文续写。
ChatGPT是偏向叙事的。deepseek偏向一些常见的描写,修饰。
总结
总体一整个体验下来。之前我是用ChatGPT为主的。
这些模型为了测试也是用了三四天左右。
下面来说一下我对这些模型的一些看法,以及一些优点的说明情况。
首先是ChatGPT。
其优点是回复迅速。在对后端的修改以及bug的修改上表现较为良好。
再说deepseek
这个算是一个新起之秀。在很多方面的表现是比ChatGPT要好的。但是在代码方面的处理,以及一些bug的修改上是不如ChatGPT的。总的来说对于日常使用来解决一些生活上的问题,是非常的推荐的。
Claude
对于编程方面前后文的能力比较优秀。比较直观。
下面附上一些分数:
各位心目中最好用的Ai模型是什么呢,不妨来讨论讨论。