Claude 3正式发布,性能超越GPT-4,免费使用且支持中文!
前言
在3月4日晚,著名的生成式AI平台Anthropic在其官方网站上正式发布了Claude 3系列多模态大模型。这个系列包括三个版本:Haiku、Sonnet和Opus。
其中,Claude 3 Opu 为 Claude 3 系列模型的最强版本,具有接近人类的理解能力,可以灵巧地处理开放式提示和复杂的任务,根据官方给到的资料,其性能全面超过了 GPT-4。
- Opus: 在多个维度上超过了OpenAI的GPT-4,包括研究生水平专家推理、基础数学、本科水平专家知识、代码等10个方面。
- Haiku : 这个模型特别注重效率,能够在短短3秒内阅读一份包含10,000
tokens的论文。这种高速的阅读能力使其在需要快速处理大量信息的任务中具有明显优势。 - Sonnet : 相比于之前的Claude 2/2.1版本,Sonnet更加智能,特别适合用于知识检索等任务。
这三个模型都支持高达20万的上下文窗口,能够处理和理解大量的背景信息。Anthropic还表示,这些模型实际上支持高达100万的上下文,但由于这会消耗巨大的AI算力,因此这一功能目前只对特定用户开放。
评测展示
根据最新的评测结果,Claude 3 Opus 在多数常用的AI系统评估基准上展现了卓越的性能,超越了同类产品。
该模型在以下关键领域取得了显著优势:
- 本科生水平的专家知识 (MMLU): 在这项评估中,Claude 3 Opus 展示了其深厚的专业知识储备,超过了其他竞争产品。
- 研究生水平的专家推理 (GPQA): 该模型在高级推理任务中的表现同样出色,证明了其在复杂逻辑和推理方面的高级能力。
- 基础数学 (GSM8K): 在数学问题解决方面,Claude 3 Opus 也展现出了强大的能力。
所有 Claude 3 模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的能力都得到了提高。
Claude3功能对比
指令遵循能力大幅度提升
Claude 3模型在指令遵循能力方面取得了显著的改进。与之前的Claude模型相比,该模型在处理安全性问题上表现得更为灵活。以前的版本可能因缺乏语境理解而频繁拒绝回答某些问题,但Claude 3在这方面做出了重大调整。
根据Anthropic的说法,Claude 3在识别真正违反内容政策的问题方面表现得更加细致和准确。它能够更好地区分哪些请求是真正有问题的,而哪些是无害的。这意味着与其他几代模型相比,如Opus、Sonnet和Haiku,Claude 3在面对接近系统边界的提示时拒绝回答的可能性明显降低。
200K上下文窗口和近乎完美的记忆
Claude 3系列型号在发布时,将初始提供200K的上下文窗口。然而,这三种模型版本(Opus、Sonnet和Haiku)都具有处理超过100万token币输入的能力。
在处理长篇上下文提示时,模型需要具备强大的记忆回忆能力。为此,"大海捞针"(NIAH)评估方法被用来测试模型从大量数据中准确回忆信息的能力。这个基准测试通过在每个提示中使用30个随机针/问题对之一,并在不同众包文档库上进行测试,以增强其稳健性。
Claude 3 Opus在这个测试中表现出色,不仅实现了近乎完美的召回率,超过99%的准确率,而且在某些情况下,它甚至能够识别出评估本身的局限性,例如识别出"针"这句话似乎是人为插入到原文中的。
近乎即时的结果
Claude 3 型号可以支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应必须是即时和实时的。
Haiku 是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内读取有关arXiv(~10k个代币)的信息和数据密集的研究论文,其中包含图表和图形。发布后,我们预计会进一步提高性能。
对于绝大多数工作负载,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,具有更高的智能水平。它擅长需要快速响应的任务,例如知识检索或销售自动化。Opus 提供与 Claude 2 和 2.1 相似的速度,但智能水平要高得多。
强大的视觉能力
Claude 3 型号具有与其他领先型号相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达 50% 的知识库以各种格式编码,例如 PDF、流程图或演示幻灯片。
后记
官方人员回答:
我们认为模型智能不会接近其极限,我们计划在未来几个月内频繁发布 Claude 3 模型系列的更新。我们也很高兴发布一系列功能来增强我们模型的功能,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(又名函数调用)、交互式编码(又名 REPL)和更高级的代理功能。
随着我们不断突破 AI 功能的界限,我们同样致力于确保我们的安全护栏跟上这些性能飞跃的步伐。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。