Claude 3 强势来袭,GPT-5还不出山吗?

前言

参考文章:GPT4 统治时代成为过去式,Claude3 登顶第一

昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku,这个由OpenAI分裂出去的兄弟公司 Anthropic,在悄然无息之间,在 X 上发了个帖子就发布了一个王炸------Claude 3 系列模型,其系列测试更是超出 GPT4 现有水平,让 GPT4 的统治地位遭受剧烈动摇。我们来看看 Claude 3 的强悍之处,静等奥特曼发布 GPT-5

更智能的 Claude3 家族

Claude 3 包含三种最先进的模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

这三款模型在推理、数学、编码、多语言理解和视觉处理等方面都相当扎眼

  • Haiku(中杯),轻量级的选择
  • Sonnet(大杯),平衡性能与速度
  • Opus(超大杯),AI 模型的巅峰之作

在这一系列模型中,Claude 3 Opus 是被认为最为先进的一款,特别是在处理高度复杂的任务方面。在包括本科级别的专业知识测评(MMLU)、研究生级别的专家推理测试(GPQA)、以及基本数学问题解答(GSM8K)等多种常见评测标准上,Opus 的表现超越了其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。Anthropic 官方宣称,作为旗舰级别的超大杯 Opus 模型,其智能程度堪比人类,能够游刃有余地应对开放式问题,并巧妙解决各种复杂挑战。

可能直接看这个图没有感觉,我举个实际的例子

比如 MGSM,多语言数学推理这个测试集,Claude 3 Opus达到 90.7% 的准确率,用的是0-shot,GPT-4是8-shot,达到了 74.5%,0-shot 意味着大模型没有在 Prompt 里给任何示例,就直接被要求完成任务。而 8-shot 则是在干活前,给了8个示例你这就能看出来区别了。一个没给示例直接上,一个给了 8 个示例,给了 8 个示例的 GPT-4 反而还打不过 Claude 3在复杂的推理任务上,Claude 3可以说是全面完胜GPT-4

视觉识别的巨大突破

Claude 3 相较于前代模型的显著进步之一,就在于其视觉识别功能。具备处理包括照片、图表、图形乃至技术图纸在内的视觉信息的能力,Claude 3展现了多模态处理的能力,这一能力已成为当前顶级AI模型的标配。

大多数顶尖的模型通常是基于英文语料库训练的,这自然导致它们在生成英语答案时表现出色,而在处理其他语言时则可能表现不佳。然而,Claude 3在这方面取得了显著的突破,它在处理西班牙语、日语和法语等非英语语言的交流时,展现了卓越的能力和流畅的沟通技巧。

(PS:希望所有大模型对中文支持赶紧提高)

安全性和可靠性

自 Claude 模型发布时,其设计理念就高度注重"安全而负责任的AI"原则。历代 Claude 模型在面对某些问题时,偶尔会表现出过度谨慎的态度,选择不作回应。

随着Claude 3的推出,这一模型在理解用户请求、辨别潜在风险问题方面取得了显著进步。它不仅能够更敏感地识别出可能带来风险的查询,还能更准确地分辨那些实际上是无害的请求。

在性能提升的同时,Claude 3继续强调模型的安全性和可靠性,严格按照人工智能安全等级2(ASL-2)的标准来开发和部署。

ASL-2

ASL-2代表的是AI系统面临中等级别的潜在风险,这要求开发者采取适当的安全措施以确保系统的安全运行。按照这一标准,虽然存在某些风险,但在大多数情况下,这些风险被视为可控,且不太可能对人类或环境造成严重威胁

面对大型语言模型普遍存在的所谓"幻觉"问题,即模型可能产生与事实不符的回答,Anthropic 公司已经认识到这一点,并为 Claude 3 设计了一系列旨在应对这些已知缺陷的复杂且基于事实的挑战。

与其前代 Claude 2.1 模型相较,Opus 版本在处理开放式问题的能力上实现了显著的飞跃,正确率实现了翻倍提升,同时在减少错误回答的生成上也取得了显著进展

Anthropic 公司采纳了与 Perplexity AI 相似的策略,不仅旨在生成更加可靠的答案,还计划在即将推出的Claude 3 模型中加入引用功能。这将使模型能够引用参考资料中的具体句子来支持其答案的正确性,显著增强了答案的可验证性。

此外,借鉴了 Perplexity AI 答案引擎的思维,Anthropic 计划在 Claude 3 模型中新增一个重要功能------引用功能,允许模型直接引用参考材料中的文本来证实其答案的准确性,这一步骤对于提高模型输出的可信度和透明度至关重要。

NIAH 评估测试超过 99%

NIAH,也就是我们俗称的大海捞针,测试的是模型从大量数据中准确检索信息的能力,为了增强这一测试的可信度,Anthropic 官方更是随机在多样化的众包文档集合中进行测试。

结果显示,超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现,而且在某些情况下,它能识别出哪些作为"针"的句子是由人为刻意插入的,充分展现了其对信息环境的深刻理解

目前,Opus 和 Sonnet 已经正式开放,集成在 Anthropic 的 API 中,大家现在可以注册并开始使用这些模型,Haiku 模型也即将在不久后推出,到时也会第一时间和大家分享!

相关推荐
xuxu11168 天前
AI作画Prompt不会写?Amazon Bedrock Claude3.5来帮忙
chatgpt·大模型·prompt·claude·amazon·亚马逊云科技·amazonbedrock
mixboot13 天前
Lobe Chat openai claude
ai·claude·lobe chat
机器之心17 天前
力压GPT-4o!新王Claude 3.5 Sonnet来了,直接免费可用
人工智能·claude
小和尚同志3 个月前
33.5k 的开放平台,可免费访问 gpt-4-turbo 和 Claude3
docker·aigc·claude
CanisMinor3 个月前
Claude 3 vs GPT-4 哪个模型更优秀
chatgpt·claude
ai使用测评4 个月前
Claude与ChatGPT选择哪一个?
ai·chatgpt·openai·claude
ai使用测评4 个月前
ChatGPTPLUS、Poe、Claude介绍,以及如何订阅
人工智能·chatgpt·claude·poe
wuhanwhite4 个月前
实测对比:Claude3在小项目编程中如何超越GPT-4
chatgpt·c#·ai编程·claude
Gunner4 个月前
数字难民的自我修养 -- ChatGPT账号被封后的自救
chatgpt·claude
YUNDUANNET4 个月前
算力,承载AI无限可能
大数据·人工智能·gpt·aigc·gpu算力·claude·算力中心