Claude 3 强势来袭，GPT-5还不出山吗？

前言

昨天晚上，Anthropic 正式推出了 Claude 3 系列模型，包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku，这个由OpenAI分裂出去的兄弟公司 Anthropic，在悄然无息之间，在 X 上发了个帖子就发布了一个王炸------Claude 3 系列模型，其系列测试更是超出 GPT4 现有水平，让 GPT4 的统治地位遭受剧烈动摇。我们来看看 Claude 3 的强悍之处，静等奥特曼发布 GPT-5

更智能的 Claude3 家族

Claude 3 包含三种最先进的模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，允许用户为其特定应用选择智能、速度和成本的最佳平衡。

这三款模型在推理、数学、编码、多语言理解和视觉处理等方面都相当扎眼

Haiku（中杯），轻量级的选择
Sonnet（大杯），平衡性能与速度
Opus（超大杯），AI 模型的巅峰之作

在这一系列模型中，Claude 3 Opus 是被认为最为先进的一款，特别是在处理高度复杂的任务方面。在包括本科级别的专业知识测评（MMLU）、研究生级别的专家推理测试（GPQA）、以及基本数学问题解答（GSM8K）等多种常见评测标准上，Opus 的表现超越了其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。Anthropic 官方宣称，作为旗舰级别的超大杯 Opus 模型，其智能程度堪比人类，能够游刃有余地应对开放式问题，并巧妙解决各种复杂挑战。

可能直接看这个图没有感觉，我举个实际的例子

比如 MGSM，多语言数学推理这个测试集，Claude 3 Opus达到 90.7% 的准确率，用的是0-shot，GPT-4是8-shot，达到了 74.5%，0-shot 意味着大模型没有在 Prompt 里给任何示例，就直接被要求完成任务。而 8-shot 则是在干活前，给了8个示例你这就能看出来区别了。一个没给示例直接上，一个给了 8 个示例，给了 8 个示例的 GPT-4 反而还打不过 Claude 3在复杂的推理任务上，Claude 3可以说是全面完胜GPT-4。

视觉识别的巨大突破

Claude 3 相较于前代模型的显著进步之一，就在于其视觉识别功能。具备处理包括照片、图表、图形乃至技术图纸在内的视觉信息的能力，Claude 3展现了多模态处理的能力，这一能力已成为当前顶级AI模型的标配。

大多数顶尖的模型通常是基于英文语料库训练的，这自然导致它们在生成英语答案时表现出色，而在处理其他语言时则可能表现不佳。然而，Claude 3在这方面取得了显著的突破，它在处理西班牙语、日语和法语等非英语语言的交流时，展现了卓越的能力和流畅的沟通技巧。

（PS：希望所有大模型对中文支持赶紧提高）

安全性和可靠性

自 Claude 模型发布时，其设计理念就高度注重"安全而负责任的AI"原则。历代 Claude 模型在面对某些问题时，偶尔会表现出过度谨慎的态度，选择不作回应。

随着Claude 3的推出，这一模型在理解用户请求、辨别潜在风险问题方面取得了显著进步。它不仅能够更敏感地识别出可能带来风险的查询，还能更准确地分辨那些实际上是无害的请求。

在性能提升的同时，Claude 3继续强调模型的安全性和可靠性，严格按照人工智能安全等级2（ASL-2）的标准来开发和部署。

ASL-2

ASL-2代表的是AI系统面临中等级别的潜在风险，这要求开发者采取适当的安全措施以确保系统的安全运行。按照这一标准，虽然存在某些风险，但在大多数情况下，这些风险被视为可控，且不太可能对人类或环境造成严重威胁

面对大型语言模型普遍存在的所谓"幻觉"问题，即模型可能产生与事实不符的回答，Anthropic 公司已经认识到这一点，并为 Claude 3 设计了一系列旨在应对这些已知缺陷的复杂且基于事实的挑战。

与其前代 Claude 2.1 模型相较，Opus 版本在处理开放式问题的能力上实现了显著的飞跃，正确率实现了翻倍提升，同时在减少错误回答的生成上也取得了显著进展

Anthropic 公司采纳了与 Perplexity AI 相似的策略，不仅旨在生成更加可靠的答案，还计划在即将推出的Claude 3 模型中加入引用功能。这将使模型能够引用参考资料中的具体句子来支持其答案的正确性，显著增强了答案的可验证性。

此外，借鉴了 Perplexity AI 答案引擎的思维，Anthropic 计划在 Claude 3 模型中新增一个重要功能------引用功能，允许模型直接引用参考材料中的文本来证实其答案的准确性，这一步骤对于提高模型输出的可信度和透明度至关重要。

NIAH 评估测试超过 99%

NIAH，也就是我们俗称的大海捞针，测试的是模型从大量数据中准确检索信息的能力，为了增强这一测试的可信度，Anthropic 官方更是随机在多样化的众包文档集合中进行测试。

结果显示，超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现，而且在某些情况下，它能识别出哪些作为"针"的句子是由人为刻意插入的，充分展现了其对信息环境的深刻理解

目前，Opus 和 Sonnet 已经正式开放，集成在 Anthropic 的 API 中，大家现在可以注册并开始使用这些模型，Haiku 模型也即将在不久后推出，到时也会第一时间和大家分享！