最新版的GPT-4.5-Turbo有多强

OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase,当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后,竟然回答对了!

不得不表扬下,AskManyAI这个网站的更新速度也真的够快啊!跟官方基本同速了。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误------Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?

相关推荐
Gyoku Mint31 分钟前
机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
人工智能·python·算法·机器学习·pandas·ai编程·matplotlib
陈阿土i1 小时前
SpringAI 1.0.0 正式版——利用Redis存储会话(ChatMemory)
java·redis·ai·springai
Baihai IDP1 小时前
“一代更比一代强”:现代 RAG 架构的演进之路
ai·llm·rag·genai·白海科技·检索增强生成
小九九的爸爸2 小时前
我是如何让AI帮我还原设计稿的
前端·人工智能·ai编程
豌豆花下猫3 小时前
Python 潮流周刊#105:Dify突破10万星、2025全栈开发的最佳实践
后端·python·ai
你那个道上的5 小时前
LangChain4j学习与实践
langchain·ai编程
阿部多瑞 ABU5 小时前
# 从底层架构到应用实践:为何部分大模型在越狱攻击下失守?
gpt·安全·ai·自然语言处理
市象6 小时前
联想困局,破于AI?
人工智能·ai·联想
MarkHD8 小时前
AI编程助手入门指南:GitHub Copilot、Cursor与Claude的安装与基础使用
github·copilot·ai编程
飞鹰@四海9 小时前
高效复用 Cursor 请求,提升开发效率 —— 使用 interactive-feedback-mcp 工具详解
人工智能·ai编程