一、Claude震撼发布焦点分析

1.Claude震撼发布

北京时间2024年3月4日晚间，Anthropic，毫无预警地发布了最新一代大模型Claude 3，距离上一代的Claude 2发布，仅相隔8个月。

Claude 发布了最新的大模型 Claude3，并且一次性发布了三个模型，分别是

Claude 3 Haiku：（日本俳句）
Claude 3 Sonnet（英文十四行诗）
Claude 3 Opus（古典乐作品集）

Anthropic是OpenAI的劲敌，其核心团队同样是OpenAI的创业原班人马。团队因为与OpenAI理念不合而分家，于2021年成立了新公司Anthropic。

2.Claude评测指标全方面领先GPT4

官方列出的一张图表，分别从编码，推理，数学，多语言，和文本理解上，基于现有的模型评测体系，全方面的和 GPT4进行了对比。

毫无疑问，Claude 3直接对标OpenAI当前最强大的模型GPT-4，多模态能力配齐，并且直接甩出超过46页的技术报告，自豪表示：

Anthropic指出：Opus是我们最智能的模型，在大多数人工智能系统的常见评估基准上都优于同行，包括**本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)**等等。它在复杂任务上表现出接近人类水平的理解和流畅性，引领着通用智能的前沿。

3.Claude 3的三款模型：Haiku、Sonnet、Opus

新一代的Claude 3分为三个版本，分别为Haiku、Sonnet、Opus三款模型。

虽然Anthropic并没有给出模型的具体参数，不过给出了三款模型所适用的场景：

Haiku： 是相应速度最快的模型，也是成本最低的选项，在大多数纯文本任务上的表现仍然相当出色，也同时包含多模态能力（比如视觉）
Sonnet： 适用于需要平衡性能和成本的场景，它在纯文本任务上的表现与后面的Opus相当，但在成本上更为经济，适合于那些需要性能稍微好点，但预算有限的企业和个人用户
Opus： 具有强大的推理、数学和编码能力，接近人类的理解能力，适用于需要高度智能和复杂任务处理的场景，如企业自动化、复杂金融预测、研究和开发等。

圈内人也看热闹不嫌事大。近期不少报道显示，马斯克将OpenAI告上法庭，让OpenAI不得不内部推迟有关GPT-5的发布------GPT-5被认为能够实现AGI（通用人工智能）。著名AI圈网红、英伟达的首席AI科学家Jim Fan就表示：

Claude 3刚刚发布了，坐等几个小时后OpenAI精心安排的GPT-5发布。

OpenAI劲敌出手英伟达的首席AI科学家Jim Fan表示

4.Claude 视觉能力强

从官方技术报告可以看到Claude3 Opus 的识别性能是和 GPT4这个我们认为最厉害的视频/图片理解模型是相当的，并且在「Science Diagrams」上大幅领先 GPT4V

5.Claude 3两大更新亮点：长文本；多模态能力。

长文本：Anthropic的一个显著优势，体现为在读论文、小说等字数更多的文本时，Anthropic更擅长理解和回答用户的相关问题。

这次，Claude 3大大提升了上下文对话窗口，达到200k------可以理解为单次和模型对话能够输入的文本。

具体而言，Claude 3 200k的对话长度，相当于能够单次处理超过15万英文单词，而GPT-4 Turbo的上下文窗口为128k，大约是9.6万个英文单词。

官网提出了一个名字叫「Needle In A Haystack」的评测方法，用来衡量从一大堆语聊数据中准确提取相关文本的能力（简单理解就是，只看和问题相关的信息，忽略不重要的信息）。

NIAH： 通过每次提示使用 30 个随机针/问题对中的一个，并在不同的众包文档语料库中进行测试，增强了这一基准的稳健性。Claude 3 Opus 不仅实现了接近完美的召回率，准确率超过 99%，而且在某些情况下，它甚至能识别出 "针 "句似乎是人为插入原文的，从而识别出评估本身的局限性。

多模态： 在Anthropic的演示视频里，就举了一个需要用python模拟经济形势走向的例子。当把"分析美国十年GDP未来趋势"的任务交给Claude 3之后，Claude就默默地做了这些事：