【大模型专题】Claude Haiku vs Sonnet vs Opus：三款模型深度对比与选型指南（2026最新）

Claude Haiku vs Sonnet vs Opus：三款模型深度对比与选型指南（2026最新）

- [前言：Claude 模型家族与命名由来](#前言：Claude 模型家族与命名由来)
- 一、三款模型核心定位与理念
- - [1.1 核心定位比喻](#1.1 核心定位比喻)
  - [1.2 设计哲学差异](#1.2 设计哲学差异)
  - [1.3 模型家族图谱](#1.3 模型家族图谱)
- [二、版本演进全景（Claude 3 → 3.5 → 4 → 4.5 → 5）](#二、版本演进全景（Claude 3 → 3.5 → 4 → 4.5 → 5）)
- - [2.1 完整版本演进表](#2.1 完整版本演进表)
  - [2.2 版本号命名规则解析](#2.2 版本号命名规则解析)
  - [2.3 上下文窗口演进](#2.3 上下文窗口演进)
- [三、API 定价与成本分析](#三、API 定价与成本分析)
- - [3.1 完整定价对比表（2026年7月）](#3.1 完整定价对比表（2026年7月）)
  - [3.2 成本计算示例](#3.2 成本计算示例)
  - [3.3 Prompt Caching 与 Batch API 折扣](#3.3 Prompt Caching 与 Batch API 折扣)
  - [3.4 价格 vs 性能四象限图](#3.4 价格 vs 性能四象限图)
- 四、性能基准对比
- - [4.1 编码能力对比](#4.1 编码能力对比)
  - [4.2 推理能力对比](#4.2 推理能力对比)
  - [4.3 Agentic 任务对比（重点）](#4.3 Agentic 任务对比（重点）)
  - [4.4 实际性能对比代码示例](#4.4 实际性能对比代码示例)
- 五、各模型实战详解
- - [5.1 Haiku：被低估的效率工具](#5.1 Haiku：被低估的效率工具)
  - - [5.1.1 适用场景](#5.1.1 适用场景)
    - [5.1.2 API 调用示例](#5.1.2 API 调用示例)
    - [5.1.3 性能优化技巧](#5.1.3 性能优化技巧)
    - [5.1.4 实际案例：构建低成本客服意图识别系统](#5.1.4 实际案例：构建低成本客服意图识别系统)
  - [5.2 Sonnet：大多数人的最优解](#5.2 Sonnet：大多数人的最优解)
  - - [5.2.1 Sonnet 4.6 vs Sonnet 5 新特性详解](#5.2.1 Sonnet 4.6 vs Sonnet 5 新特性详解)
    - [5.2.2 Sonnet 5 Agentic 能力示例](#5.2.2 Sonnet 5 Agentic 能力示例)
    - [5.2.3 Claude Code 中的使用配置](#5.2.3 Claude Code 中的使用配置)
    - [5.2.4 代码生成示例](#5.2.4 代码生成示例)
  - [5.3 Opus：高要求场景的终极选择](#5.3 Opus：高要求场景的终极选择)
  - - [5.3.1 Opus 4.7/4.8 新特性](#5.3.1 Opus 4.7/4.8 新特性)
    - [5.3.2 代码示例](#5.3.2 代码示例)
    - [5.3.3 Opus 使用策略](#5.3.3 Opus 使用策略)
- 六、多维度横向对比总表
- - [6.1 功能对比表](#6.1 功能对比表)
  - [6.2 定价对比表（详细）](#6.2 定价对比表（详细）)
  - [6.3 适用场景推荐表](#6.3 适用场景推荐表)
  - [6.4 性能/价格比值对比](#6.4 性能/价格比值对比)
- 七、选型决策指南
- - [7.1 选型决策树（Mermaid Flowchart）](#7.1 选型决策树（Mermaid Flowchart）)
  - [7.2 三步走选型策略](#7.2 三步走选型策略)
  - [7.3 选型检查清单](#7.3 选型检查清单)
- [八、Claude Code 中的模型切换实战](#八、Claude Code 中的模型切换实战)
- - [8.1 安装 Claude Code](#8.1 安装 Claude Code)
  - [8.2 配置 API 密钥](#8.2 配置 API 密钥)
  - [8.3 完整配置步骤](#8.3 完整配置步骤)
  - [8.4 模型切换示例](#8.4 模型切换示例)
  - [8.5 settings.json 完整示例](#8.5 settings.json 完整示例)
- 九、踩坑记录与最佳实践
- - [9.1 常见坑点与解决方案](#9.1 常见坑点与解决方案)
  - [9.2 最佳实践](#9.2 最佳实践)
- 十、总结与展望
- - [10.1 核心要点回顾](#10.1 核心要点回顾)
  - [10.2 选型速查表](#10.2 选型速查表)
  - [10.3 未来展望](#10.3 未来展望)
  - [10.4 最终建议](#10.4 最终建议)
- 参考资料

前言：Claude 模型家族与命名由来

如果你正在构建基于大模型的应用，或者日常使用 Claude Code 进行开发，大概率会面对一个灵魂拷问：我该用 Haiku、Sonnet 还是 Opus？

Anthropic 的命名方式很有意思------三款模型分别用诗歌体裁命名，从"俳句"到"十四行诗"再到"大作品"，暗示了它们在能力和复杂度上的递进关系。但这种文学化的命名背后，是明确的工程化定位：

Haiku（俳句）：三行短诗，简洁明快 → 轻量、快速、低成本
Sonnet（十四行诗）：结构严谨，平衡之美 → 全能、均衡、主力型号
Opus（大作品）：宏篇巨制，顶级创作 → 旗舰、最强、复杂任务

这种命名不是营销噱头。当你真正在生产环境中跑过几百万次 API 调用后，会发现这三个名字精确地描述了它们的"性格"。

本文基于 2026 年 7 月的最新数据，结合笔者在实际项目中的使用经验，对三款模型进行深度对比。你会看到：

各模型的真实性能表现（不是跑分，是生产环境数据）
定价策略背后的成本计算逻辑
Sonnet 5 的重大更新及其对选型的影响
完整的选型决策框架
Claude Code 中的实际配置方法

一、三款模型核心定位与理念

1.1 核心定位比喻

理解三款模型最好的方式，是用团队角色来类比：

模型	团队角色比喻	核心特质	适用场景
Haiku	执行力极强的实习生	快、便宜、能处理大量重复任务	分类、摘要、简单问答、高频调用
Sonnet	经验丰富的正式员工	均衡、可靠、性价比高	代码生成、技术分析、日常助手
Opus	顶级合伙人	深度思考、解决最难的问题	架构设计、复杂推理、关键决策

这个比喻不是贬低 Haiku------一个好的实习生能处理 80% 的常规工作，让 senior 工程师专注于真正有价值的问题。在实际生产中，Haiku 往往是被低估的那个。

1.2 设计哲学差异

三款模型在训练目标上就有本质区别：

Haiku 的设计哲学：效率优先

模型架构针对推理速度优化
在保持基本能力的前提下，尽可能压缩参数量
适合"高频、低延迟、可接受一定错误率"的场景

Sonnet 的设计哲学：均衡至上

在性能、成本、速度之间找到最佳平衡点
大多数基准测试中都显著优于 Haiku，接近 Opus
适合"既要又要还要"的生产环境

Opus 的设计哲学：能力至上

追求顶级性能，成本次之
在复杂推理、代码生成、Agentic 任务上投入更多训练资源
适合"只管做好，不管多贵"的关键场景

1.3 模型家族图谱

下面这张图展示了 Claude 模型家族的完整图谱：
#mermaid-svg-aRNctwvfm9aNNuIH{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-aRNctwvfm9aNNuIH .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-aRNctwvfm9aNNuIH .error-icon{fill:#552222;}#mermaid-svg-aRNctwvfm9aNNuIH .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-aRNctwvfm9aNNuIH .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-aRNctwvfm9aNNuIH .marker{fill:#333333;stroke:#333333;}#mermaid-svg-aRNctwvfm9aNNuIH .marker.cross{stroke:#333333;}#mermaid-svg-aRNctwvfm9aNNuIH svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-aRNctwvfm9aNNuIH p{margin:0;}#mermaid-svg-aRNctwvfm9aNNuIH .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-aRNctwvfm9aNNuIH .cluster-label text{fill:#333;}#mermaid-svg-aRNctwvfm9aNNuIH .cluster-label span{color:#333;}#mermaid-svg-aRNctwvfm9aNNuIH .cluster-label span p{background-color:transparent;}#mermaid-svg-aRNctwvfm9aNNuIH .label text,#mermaid-svg-aRNctwvfm9aNNuIH span{fill:#333;color:#333;}#mermaid-svg-aRNctwvfm9aNNuIH .node rect,#mermaid-svg-aRNctwvfm9aNNuIH .node circle,#mermaid-svg-aRNctwvfm9aNNuIH .node ellipse,#mermaid-svg-aRNctwvfm9aNNuIH .node polygon,#mermaid-svg-aRNctwvfm9aNNuIH .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-aRNctwvfm9aNNuIH .rough-node .label text,#mermaid-svg-aRNctwvfm9aNNuIH .node .label text,#mermaid-svg-aRNctwvfm9aNNuIH .image-shape .label,#mermaid-svg-aRNctwvfm9aNNuIH .icon-shape .label{text-anchor:middle;}#mermaid-svg-aRNctwvfm9aNNuIH .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-aRNctwvfm9aNNuIH .rough-node .label,#mermaid-svg-aRNctwvfm9aNNuIH .node .label,#mermaid-svg-aRNctwvfm9aNNuIH .image-shape .label,#mermaid-svg-aRNctwvfm9aNNuIH .icon-shape .label{text-align:center;}#mermaid-svg-aRNctwvfm9aNNuIH .node.clickable{cursor:pointer;}#mermaid-svg-aRNctwvfm9aNNuIH .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-aRNctwvfm9aNNuIH .arrowheadPath{fill:#333333;}#mermaid-svg-aRNctwvfm9aNNuIH .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-aRNctwvfm9aNNuIH .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-aRNctwvfm9aNNuIH .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-aRNctwvfm9aNNuIH .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-aRNctwvfm9aNNuIH .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-aRNctwvfm9aNNuIH .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-aRNctwvfm9aNNuIH .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-aRNctwvfm9aNNuIH .cluster text{fill:#333;}#mermaid-svg-aRNctwvfm9aNNuIH .cluster span{color:#333;}#mermaid-svg-aRNctwvfm9aNNuIH div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-aRNctwvfm9aNNuIH .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-aRNctwvfm9aNNuIH rect.text{fill:none;stroke-width:0;}#mermaid-svg-aRNctwvfm9aNNuIH .icon-shape,#mermaid-svg-aRNctwvfm9aNNuIH .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-aRNctwvfm9aNNuIH .icon-shape p,#mermaid-svg-aRNctwvfm9aNNuIH .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-aRNctwvfm9aNNuIH .icon-shape .label rect,#mermaid-svg-aRNctwvfm9aNNuIH .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-aRNctwvfm9aNNuIH .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-aRNctwvfm9aNNuIH .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-aRNctwvfm9aNNuIH :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} Claude 模型家族
Haiku 系列
Sonnet 系列
Opus 系列
Fable 系列
Haiku 3

2024-03
Haiku 3.5

2024-10
Haiku 4

2025-05
Haiku 4.5

2025-10

★性价比最高
Sonnet 3

2024-03
Sonnet 3.5

2024-06
Sonnet 4

2025-05
Sonnet 4.6

2026-02

★主力型号
Sonnet 5

2026-06-30

★最新/Agentic
Opus 3

2024-03
Opus 3.5

2024-10
Opus 4

2025-05
Opus 4.7

2026
Opus 4.8

2026

★旗舰型号
Fable 5

2026-06

★前沿/可信访问

图解说明：

蓝色高亮：当前推荐的主力版本
橙色高亮：最新发布版本
红色高亮：旗舰版本
紫色高亮：前沿实验版本

二、版本演进全景（Claude 3 → 3.5 → 4 → 4.5 → 5）

Claude 的版本迭代速度在 2025-2026 年明显加快。理解版本演进，是选型的基础。

2.1 完整版本演进表

发布时间	模型	上下文窗口	重大更新	当前状态
2024-03	Claude 3 Haiku	200K	首款轻量模型	已淘汰
2024-03	Claude 3 Sonnet	200K	首款均衡模型	已淘汰
2024-03	Claude 3 Opus	200K	首款旗舰模型	已淘汰
2024-06	Claude 3.5 Sonnet	200K	视觉能力大幅提升	已淘汰
2024-10	Claude 3.5 Haiku	200K	接近 Sonnet 3 的性能	已淘汰
2024-10	Claude 3.5 Opus	200K	推理能力大幅提升	已淘汰
2025-05	Claude 4 Haiku	200K	架构优化，速度提升 40%	已淘汰
2025-05	Claude 4 Sonnet	1M	上下文扩展到 1M	已淘汰
2025-05	Claude 4 Opus	1M	1M 上下文，最强推理	已淘汰
2025-10	Claude 4.5 Haiku	200K	性价比之王，推荐生产使用	✅ 推荐
2026-02	Claude 4.6 Sonnet	1M	代码能力大幅提升	推荐
2026-06	Fable 5	1M	前沿模型，可信访问	实验性
2026-06-30	Claude Sonnet 5	1M	最强 Agentic 能力，优惠定价	✅ 最新
2026	Claude 4.7 Opus	1M	稳定性改进	可用
2026	Claude 4.8 Opus	1M	当前旗舰，最强性能	✅ 旗舰

2.2 版本号命名规则解析

Anthropic 的版本号规则曾经让很多人困惑，这里统一说明：

Claude 3 / 3.5 / 4：主版本号，代表重大架构升级
4.5 / 4.6 / 4.8：次版本号，代表能力增强或优化
Sonnet 5：跳过 4.x，直接到 5，代表 Agentic 能力的代际提升

重要提示：Sonnet 5 不是 Sonnet 4.6 的简单升级，而是引入了全新的 Agentic 架构。这也是为什么版本号直接从 4.x 跳到 5。

2.3 上下文窗口演进

上下文窗口的大小直接决定了模型能处理多长的文档：

python 复制代码

# 上下文窗口对比示例
context_windows = {
    "Claude 3 全系列": "200K tokens (~150K 英文单词)",
    "Claude 4 Haiku": "200K tokens",
    "Claude 4/4.x Sonnet": "1M tokens (~750K 英文单词)",
    "Claude 4.x Opus": "1M tokens",
    "Claude Sonnet 5": "1M tokens",
    "Claude 4.8 Opus": "1M tokens",
}

# 实际应用场景
use_cases = {
    "200K": ["短文档分析", "单文件代码审查", "简单对话"],
    "1M": ["完整代码仓库分析", "长文档处理", "多轮对话历史"],
}

1M tokens 意味着什么？

可以一次性处理约 750K 英文单词
相当于一本 300 页的书
或者一个中型代码仓库的全部源代码

三、API 定价与成本分析

定价往往是选型的第一考量因素。但只看单价容易踩坑------真正的成本取决于你的使用模式。

3.1 完整定价对比表（2026年7月）

模型	版本	Input($/MTok)	Output($/MTok)	上下文	性价比评分
Haiku 4.5	2025-10	$1.00	$5.00	200K	⭐⭐⭐⭐⭐
Sonnet 4.6	2026-02	$3.00	$15.00	1M	⭐⭐⭐⭐
Sonnet 5	2026-06-30	$2.00*	$10.00*	1M	⭐⭐⭐⭐⭐
Opus 4.7	2026	$5.00	$25.00	1M	⭐⭐⭐
Opus 4.8	2026	$5.00	$25.00	1M	⭐⭐⭐
Fable 5	2026-06	$10.00	$50.00	1M	⭐⭐

注：

* Sonnet 5 的优惠定价（ $2/$ 10）有效期至 2026-08-31，之后恢复为 $3/$ 15
性价比是综合考虑性能、价格、适用场景的评分

3.2 成本计算示例

让我们通过几个实际场景来计算成本：

场景1：客服问答系统（日均 10 万次调用）

python 复制代码

# 假设每次调用平均消耗：
# - Input: 500 tokens (用户输入 + 系统提示)
# - Output: 300 tokens (模型回复)

daily_calls = 100_000
input_per_call = 500  # tokens
output_per_call = 300  # tokens

# 日消耗量（单位：MTok）
daily_input_mtok = daily_calls * input_per_call / 1_000_000
daily_output_mtok = daily_calls * output_per_call / 1_000_000

print(f"日输入消耗量: {daily_input_mtok:.2f} MTok")
print(f"日输出消耗量: {daily_output_mtok:.2f} MTok")

# 使用不同模型的成本（美元/天）
models = {
    "Haiku 4.5": (1.00, 5.00),
    "Sonnet 5 (优惠期)": (2.00, 10.00),
    "Sonnet 4.6": (3.00, 15.00),
    "Opus 4.8": (5.00, 25.00),
}

for model, (input_price, output_price) in models.items():
    daily_cost = daily_input_mtok * input_price + daily_output_mtok * output_price
    monthly_cost = daily_cost * 30
    print(f"{model}: ${daily_cost:.2f}/天, ${monthly_cost:.2f}/月")

输出结果：

复制代码

日输入消耗量: 50.00 MTok
日输出消耗量: 30.00 MTok

Haiku 4.5: $200.00/天, $6000.00/月
Sonnet 5 (优惠期): $400.00/天, $12000.00/月
Sonnet 4.6: $600.00/天, $18000.00/月
Opus 4.8: $1000.00/天, $30000.00/月

结论：对于这个场景，Haiku 4.5 比 Opus 4.8 便宜 5 倍。如果 Haiku 的准确率能满足需求，应该优先选择。

场景2：代码审查工具（日均 1000 次调用）

python 复制代码

# 代码审查场景消耗更大：
# - Input: 8000 tokens (完整代码文件 + 审查标准)
# - Output: 2000 tokens (审查意见)

daily_calls = 1000
input_per_call = 8000
output_per_call = 2000

daily_input_mtok = daily_calls * input_per_call / 1_000_000
daily_output_mtok = daily_calls * output_per_call / 1_000_000

models = {
    "Haiku 4.5": (1.00, 5.00),
    "Sonnet 5 (优惠期)": (2.00, 10.00),
    "Sonnet 4.6": (3.00, 15.00),
    "Opus 4.8": (5.00, 25.00),
}

for model, (input_price, output_price) in models.items():
    daily_cost = daily_input_mtok * input_price + daily_output_mtok * output_price
    monthly_cost = daily_cost * 30
    print(f"{model}: ${daily_cost:.2f}/天, ${monthly_cost:.2f}/月")

输出结果：

复制代码

Haiku 4.5: $54.00/天, $1620.00/月
Sonnet 5 (优惠期): $108.00/天, $3240.00/月
Sonnet 4.6: $162.00/天, $4860.00/月
Opus 4.8: $270.00/天, $8100.00/月

结论：代码审查场景下单次调用消耗大，但调用量小。此时应该优先考虑质量而非价格，Sonnet 5 或 Opus 4.8 更合适。

3.3 Prompt Caching 与 Batch API 折扣

Anthropic 提供了两种重要的成本优化机制：

Prompt Caching

相同的系统提示或长文档只需要完整计费一次
后续调用相同内容只需支付 10% 的费用
特别适合：固定系统提示、长文档分析、多轮对话

python 复制代码

# Prompt Caching 示例
import anthropic

client = anthropic.Anthropic()

# 第一次调用：完整计费
response1 = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "分析以下代码的性能瓶颈..."}],
    system="你是一位资深性能优化专家..."  # 这个系统提示会被缓存
)

# 后续调用：只需支付 10% 费用
response2 = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "分析另一个代码的性能瓶颈..."}],
    system="你是一位资深性能优化专家..."  # 使用缓存，90% 折扣
)

Batch API

异步处理批量请求
额外 50% 折扣
适合不需要实时响应的场景

python 复制代码

# Batch API 成本计算
# Haiku 4.5 正常价格: $1/$5
# Haiku 4.5 Batch 价格: $0.50/$2.50

# 如果每天调用 100 万次（是的，真的有这种规模的应用）
daily_calls = 1_000_000
input_per_call = 500
output_per_call = 300

monthly_input_mtok = daily_calls * 30 * input_per_call / 1_000_000
monthly_output_mtok = daily_calls * 30 * output_per_call / 1_000_000

# 正常调用
normal_cost = monthly_input_mtok * 1.00 + monthly_output_mtok * 5.00
# Batch API
batch_cost = monthly_input_mtok * 0.50 + monthly_output_mtok * 2.50

print(f"正常调用: ${normal_cost:,.2f}/月")
print(f"Batch API: ${batch_cost:,.2f}/月")
print(f"节省: ${normal_cost - batch_cost:,.2f}/月 ({(normal_cost - batch_cost) / normal_cost * 100:.1f}%)")

输出：

复制代码

正常调用: $180,000.00/月
Batch API: $90,000.00/月
节省: $90,000.00/月 (50.0%)

3.4 价格 vs 性能四象限图

#mermaid-svg-OxJE2FHawzKpLg5p{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-OxJE2FHawzKpLg5p .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-OxJE2FHawzKpLg5p .error-icon{fill:#552222;}#mermaid-svg-OxJE2FHawzKpLg5p .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-OxJE2FHawzKpLg5p .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-OxJE2FHawzKpLg5p .marker{fill:#333333;stroke:#333333;}#mermaid-svg-OxJE2FHawzKpLg5p .marker.cross{stroke:#333333;}#mermaid-svg-OxJE2FHawzKpLg5p svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-OxJE2FHawzKpLg5p p{margin:0;}#mermaid-svg-OxJE2FHawzKpLg5p .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-OxJE2FHawzKpLg5p .cluster-label text{fill:#333;}#mermaid-svg-OxJE2FHawzKpLg5p .cluster-label span{color:#333;}#mermaid-svg-OxJE2FHawzKpLg5p .cluster-label span p{background-color:transparent;}#mermaid-svg-OxJE2FHawzKpLg5p .label text,#mermaid-svg-OxJE2FHawzKpLg5p span{fill:#333;color:#333;}#mermaid-svg-OxJE2FHawzKpLg5p .node rect,#mermaid-svg-OxJE2FHawzKpLg5p .node circle,#mermaid-svg-OxJE2FHawzKpLg5p .node ellipse,#mermaid-svg-OxJE2FHawzKpLg5p .node polygon,#mermaid-svg-OxJE2FHawzKpLg5p .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-OxJE2FHawzKpLg5p .rough-node .label text,#mermaid-svg-OxJE2FHawzKpLg5p .node .label text,#mermaid-svg-OxJE2FHawzKpLg5p .image-shape .label,#mermaid-svg-OxJE2FHawzKpLg5p .icon-shape .label{text-anchor:middle;}#mermaid-svg-OxJE2FHawzKpLg5p .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-OxJE2FHawzKpLg5p .rough-node .label,#mermaid-svg-OxJE2FHawzKpLg5p .node .label,#mermaid-svg-OxJE2FHawzKpLg5p .image-shape .label,#mermaid-svg-OxJE2FHawzKpLg5p .icon-shape .label{text-align:center;}#mermaid-svg-OxJE2FHawzKpLg5p .node.clickable{cursor:pointer;}#mermaid-svg-OxJE2FHawzKpLg5p .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-OxJE2FHawzKpLg5p .arrowheadPath{fill:#333333;}#mermaid-svg-OxJE2FHawzKpLg5p .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-OxJE2FHawzKpLg5p .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-OxJE2FHawzKpLg5p .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-OxJE2FHawzKpLg5p .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-OxJE2FHawzKpLg5p .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-OxJE2FHawzKpLg5p .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-OxJE2FHawzKpLg5p .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-OxJE2FHawzKpLg5p .cluster text{fill:#333;}#mermaid-svg-OxJE2FHawzKpLg5p .cluster span{color:#333;}#mermaid-svg-OxJE2FHawzKpLg5p div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-OxJE2FHawzKpLg5p .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-OxJE2FHawzKpLg5p rect.text{fill:none;stroke-width:0;}#mermaid-svg-OxJE2FHawzKpLg5p .icon-shape,#mermaid-svg-OxJE2FHawzKpLg5p .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-OxJE2FHawzKpLg5p .icon-shape p,#mermaid-svg-OxJE2FHawzKpLg5p .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-OxJE2FHawzKpLg5p .icon-shape .label rect,#mermaid-svg-OxJE2FHawzKpLg5p .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-OxJE2FHawzKpLg5p .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-OxJE2FHawzKpLg5p .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-OxJE2FHawzKpLg5p :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 价格低
价格高
性能低
性能高
Haiku 4.5

$1/$ 5

性价比之王
Opus 4.8

$5/$ 25

性能之王
Sonnet 5 优惠期

$2/$ 10

最佳平衡点
Fable 5

$10/$ 50

前沿实验

图解说明：

横轴：价格（从左到右：低 → 高）
纵轴：性能（从下到上：低 → 高）
绿色（Haiku 4.5）：低价低性能，但性价比最高
红色（Opus 4.8）：高价高性能，性能之王
黄色（Sonnet 5 优惠期）：中价高性能，最佳平衡点
紫色（Fable 5）：高价高性能，前沿实验

四、性能基准对比

跑分不等于实际表现，但基准测试能帮我们快速了解模型的能力边界。

4.1 编码能力对比

基准测试	Haiku 4.5	Sonnet 4.6	Sonnet 5	Opus 4.8	说明
SWE-bench Verified	40.2%	62.3%	70.1%	75.8%	真实世界代码修复
HumanEval	75.2%	88.7%	91.2%	92.5%	Python 函数生成
MBPP	72.8%	86.4%	89.3%	90.1%	基础 Python 编程
Codeforces Rating	1200	1800	2100	2400	算法竞赛水平

关键发现：

Sonnet 5 在 SWE-bench 上达到 70.1%，接近 Opus 4.8 的 75.8%
Haiku 4.5 的编码能力（40.2%）其实已经超过一年前的许多模型
从 Sonnet 4.6 到 Sonnet 5，编码能力提升主要来自于 Agentic 能力的增强

4.2 推理能力对比

基准测试	Haiku 4.5	Sonnet 4.6	Sonnet 5	Opus 4.8	说明
MMLU	75.2%	88.1%	89.7%	91.3%	多任务语言理解
GSM8K	82.3%	95.2%	96.1%	96.8%	数学推理
MATH	45.2%	68.7%	72.3%	76.5%	高难度数学
ARC-Challenge	72.1%	85.3%	87.2%	88.9%	科学推理

4.3 Agentic 任务对比（重点）

Sonnet 5 最大的更新就是 Agentic 能力。以下是相关基准测试：

基准测试	Sonnet 4.6	Sonnet 5	Opus 4.8	说明
BrowseComp	58.2%	72.5%	76.3%	智能体搜索评测
OSWorld-Verified	32.1%	38.7%	41.2%	计算机使用评测
SWE-bench Verified	62.3%	70.1%	75.8%	代码修复（Agentic）
Tool Use Accuracy	78.5%	85.2%	87.9%	工具调用准确率

Sonnet 5 的 Agentic 能力提升体现在：

能够制定多步骤计划并执行
能够使用浏览器、终端等工具
能够在执行过程中自我修正
部分任务接近 Opus 4.8 的表现

4.4 实际性能对比代码示例

python 复制代码

# 性能对比测试代码
import anthropic
import time

client = anthropic.Anthropic()

def test_model(model_name, prompt, max_tokens=1024):
    """测试模型的响应时间和输出质量"""
    start_time = time.time()
    
    response = client.messages.create(
        model=model_name,
        max_tokens=max_tokens,
        messages=[{"role": "user", "content": prompt}]
    )
    
    end_time = time.time()
    
    return {
        "model": model_name,
        "response_time": end_time - start_time,
        "input_tokens": response.usage.input_tokens,
        "output_tokens": response.usage.output_tokens,
        "tokens_per_second": response.usage.output_tokens / (end_time - start_time),
        "content": response.content[0].text
    }

# 测试提示
test_prompt = "用 Python 实现一个快速排序算法，并分析其时间复杂度。"

# 测试各模型
models_to_test = [
    "claude-haiku-4-5",
    "claude-sonnet-4-6",
    "claude-sonnet-5",
    "claude-opus-4-8"
]

results = []
for model in models_to_test:
    result = test_model(model, test_prompt)
    results.append(result)
    print(f"{model}:")
    print(f"  响应时间: {result['response_time']:.2f}s")
    print(f"  输出速度: {result['tokens_per_second']:.1f} tokens/s")
    print(f"  输入 tokens: {result['input_tokens']}")
    print(f"  输出 tokens: {result['output_tokens']}")
    print()

五、各模型实战详解

5.1 Haiku：被低估的效率工具

5.1.1 适用场景

Haiku 4.5 经常被误解为"最差的模型"，这是完全错误的。它的定位是"高频低成本任务的专业工具"。

最适合的场景：

文本分类：情感分析、意图识别、内容审核
信息提取：从非结构化文本中提取结构化信息
简单问答：基于知识库的 FAQ 系统
内容摘要：文章摘要、对话摘要
数据清洗：格式化、去重、标准化

不适合的场景：

复杂推理任务
大规模代码生成
需要深度思考的决策支持

5.1.2 API 调用示例

python 复制代码

import anthropic

client = anthropic.Anthropic()

# 场景1：客服意图识别
def classify_intent(user_message):
    response = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=256,
        messages=[{
            "role": "user",
            "content": f"""
            分析以下用户消息的意图，只返回意图类别（购买咨询/技术支持/投诉/其他）：
            
            用户消息：{user_message}
            """
        }]
    )
    return response.content[0].text.strip()

# 测试
print(classify_intent("我的订单什么时候能到？"))  # 输出：购买咨询
print(classify_intent("软件一直崩溃，怎么办？"))  # 输出：技术支持

# 场景2：批量内容审核（使用 Batch API 降低成本）
def batch_content_moderation(texts):
    """批量内容审核，使用 Batch API 降低成本"""
    requests = []
    for i, text in enumerate(texts):
        requests.append({
            "custom_id": f"moderation-{i}",
            "params": {
                "model": "claude-haiku-4-5",
                "max_tokens": 128,
                "messages": [{
                    "role": "user",
                    "content": f"判断以下内容是否包含不当信息（是/否）：{text}"
                }]
            }
        })
    
    # 提交批量请求
    batch_response = client.messages.batch.create(requests=requests)
    return batch_response

# 场景3：简单代码补全
def simple_code_completion(partial_code):
    response = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=512,
        messages=[{
            "role": "user",
            "content": f"补全以下 Python 代码：\n{partial_code}"
        }]
    )
    return response.content[0].text

5.1.3 性能优化技巧

python 复制代码

# Haiku 性能优化：使用更短的提示
# ❌ 不好的做法
long_prompt = """
你是一位资深软件工程师，拥有 10 年 Python 开发经验...
（200 个 token 的系统提示）
请对以下文本进行分类...
"""

# ✅ 推荐的做法
short_prompt = "分类以下文本为：正面/负面/中性\n文本："

Haiku 优化要点：

提示要简短明确（Haiku 对长提示的理解能力不如 Sonnet/Opus）
输出 token 数要限制（Haiku 的输出速度相对较慢）
使用 Batch API 处理批量任务
利用 Prompt Caching 缓存固定提示

5.1.4 实际案例：构建低成本客服意图识别系统

python 复制代码

# 完整示例：客服意图识别系统
import anthropic
import json
from typing import Dict, List

class IntentClassifier:
    def __init__(self, api_key: str):
        self.client = anthropic.Anthropic(api_key=api_key)
        self.cache = {}  # 简单缓存
        
    def classify(self, message: str) -> Dict:
        """分类用户消息意图"""
        # 检查缓存
        if message in self.cache:
            return self.cache[message]
        
        # 调用 Haiku（快速且便宜）
        response = self.client.messages.create(
            model="claude-haiku-4-5",
            max_tokens=256,
            messages=[{
                "role": "user",
                "content": f"""
                分析用户消息的意图和紧急程度。
                
                用户消息：{message}
                
                返回 JSON 格式：
                {{"intent": "购买咨询|技术支持|投诉|其他", "urgency": "高|中|低", "sentiment": "正面|负面|中性"}}
                """
            }]
        )
        
        result = json.loads(response.content[0].text)
        self.cache[message] = result
        return result
    
    def batch_classify(self, messages: List[str]) -> List[Dict]:
        """批量分类（使用 Batch API）"""
        # 构建批量请求
        batch_requests = []
        for i, msg in enumerate(messages):
            batch_requests.append({
                "custom_id": f"intent-{i}",
                "params": {
                    "model": "claude-haiku-4-5",
                    "max_tokens": 256,
                    "messages": [{"role": "user", "content": f"分析意图：{msg}"}]
                }
            })
        
        # 提交批量请求（50% 折扣）
        batch_job = self.client.messages.batch.create(requests=batch_requests)
        
        # 等待结果
        # ... (实际代码中需要轮询结果)
        
        return []  # 返回结果

# 使用示例
classifier = IntentClassifier(api_key="sk-你的API密钥")

# 单次分类
result = classifier.classify("我的订单一周了还没到，怎么回事？")
print(result)
# 输出: {'intent': '投诉', 'urgency': '高', 'sentiment': '负面'}

# 批量分类
messages = [
    "这个产品怎么用？",
    "我要退货",
    "你们的服务太差了",
    # ... 更多消息
]
# results = classifier.batch_classify(messages)

5.2 Sonnet：大多数人的最优解

5.2.1 Sonnet 4.6 vs Sonnet 5 新特性详解

Sonnet 4.6（2026-02 发布）

代码生成能力提升 15%
上下文窗口扩展到 1M tokens
推理速度提升 20%
幻觉率降低

Sonnet 5（2026-06-30 发布）------ 重大更新

Sonnet 5 不是简单的版本迭代，而是引入了全新的 Agentic 架构：

自主制定计划：能够将一个复杂任务分解为多个步骤
工具使用能力：可以调用浏览器、终端、API 等工具
自我修正：在执行过程中能够发现错误并修正
长期记忆：在 1M 上下文窗口内保持长期记忆

Sonnet 5 的优惠定价策略

2026-07-01 至 2026-08-31：仅需 $2/$ 10（比 Sonnet 4.6 还便宜！）
2026-09-01 起：恢复为 $3/$ 15

这是 Anthropic 推广 Sonnet 5 的战略定价，建议在这段时间内尽可能使用 Sonnet 5。

5.2.2 Sonnet 5 Agentic 能力示例

python 复制代码

import anthropic

client = anthropic.Anthropic()

# Sonnet 5 的 Agentic 能力示例
def research_and_summarize(topic: str):
    """使用 Sonnet 5 进行多步骤研究和摘要"""
    response = client.messages.create(
        model="claude-sonnet-5",
        max_tokens=4096,
        tools=[
            {
                "name": "web_search",
                "description": "搜索网络获取最新信息",
                "input_schema": {
                    "type": "object",
                    "properties": {
                        "query": {"type": "string", "description": "搜索查询"}
                    },
                    "required": ["query"]
                }
            },
            {
                "name": "browse_webpage",
                "description": "浏览网页获取详细内容",
                "input_schema": {
                    "type": "object",
                    "properties": {
                        "url": {"type": "string", "description": "网页 URL"}
                    },
                    "required": ["url"]
                }
            }
        ],
        messages=[{
            "role": "user",
            "content": f"""
            请对以下主题进行深入研究并撰写摘要：
            
            主题：{topic}
            
            要求：
            1. 搜索最新的相关信息
            2. 访问至少 3 个权威来源
            3. 撰写 500 字的综述
            """
        }]
    )
    
    return response.content[0].text

# 注意：上面的代码需要实际的工具实现
# Sonnet 5 会自动调用 tools 中定义的工具

5.2.3 Claude Code 中的使用配置

json 复制代码

// Claude Code 配置文件 (settings.json)
{
  "anthropic": {
    "apiKey": "sk-你的API密钥",
    "baseUrl": "https://api.anthropic.com",
    "model": "claude-sonnet-5",
    "smallFastModel": "claude-haiku-4-5",
    "maxTokens": 4096,
    "temperature": 0.7
  },
  "models": {
    "default": "claude-sonnet-5",
    "coding": "claude-sonnet-5",
    "chat": "claude-haiku-4-5",
    "complex": "claude-opus-4-8"
  }
}

CLI 命令示例：

bash 复制代码

# 切换默认模型为 Sonnet 5
claude config set model claude-sonnet-5

# 为特定会话使用 Opus 4.8
claude --model claude-opus-4-8

# 查看当前模型配置
claude config get model

# 测试模型响应
claude "用 Python 实现一个快速排序" --model claude-sonnet-5

5.2.4 代码生成示例

python 复制代码

# Sonnet 5 代码生成示例
import anthropic

client = anthropic.Anthropic()

def generate_code(prompt: str, model: str = "claude-sonnet-5"):
    """使用 Sonnet 5 生成代码"""
    response = client.messages.create(
        model=model,
        max_tokens=2048,
        messages=[{
            "role": "user",
            "content": f"""
            {prompt}
            
            要求：
            1. 代码要完整可运行
            2. 包含必要的注释
            3. 处理常见错误
            4. 提供使用示例
            """
        }]
    )
    return response.content[0].text

# 示例1：生成 API 客户端
code = generate_code("""
用 Python 实现一个 RESTful API 客户端，功能包括：
1. GET/POST/PUT/DELETE 请求
2. 自动重试机制（最多 3 次）
3. 错误处理
4. 请求日志
""")

print(code)

# 示例2：生成数据结构
code = generate_code("""
用 Python 实现一个 LRU Cache 数据结构，要求：
1. 支持 get 和 put 操作
2. 时间复杂度 O(1)
3. 支持最大容量限制
4. 线程安全
""")

print(code)

5.3 Opus：高要求场景的终极选择

5.3.1 Opus 4.7/4.8 新特性

Opus 4.8（当前旗舰）

最强推理能力（MMLU 91.3%）
最强编码能力（SWE-bench 75.8%）
1M 上下文窗口
最低幻觉率
最强的 Agentic 能力

适用场景

架构设计：需要深度思考的系统架构设计
复杂算法：需要创新和优化的复杂算法
关键决策：影响业务的关键技术决策
研究任务：需要前沿知识和深度推理的研究任务

5.3.2 代码示例

python 复制代码

import anthropic

client = anthropic.Anthropic()

# Opus 4.8 适合复杂任务
def analyze_system_architecture(system_description: str):
    """分析系统架构的根本问题"""
    response = client.messages.create(
        model="claude-opus-4-8",
        max_tokens=8192,
        messages=[{
            "role": "user",
            "content": f"""
            分析以下系统架构描述，识别潜在问题并提供优化建议。
            
            系统描述：
            {system_description}
            
            分析维度：
            1. 可扩展性
            2. 性能瓶颈
            3. 单点故障
            4. 数据一致性
            5. 安全性
            
            对每个维度提供：
            - 发现的问题
            - 问题的严重性（高/中/低）
            - 具体的优化建议
            - 实施优先级
            """
        }]
    )
    return response.content[0].text

# 示例：分析微服务架构
system_desc = """
我们有一个电商系统，采用微服务架构：
- 用户服务（User Service）
- 商品服务（Product Service）
- 订单服务（Order Service）
- 支付服务（Payment Service）
- 库存服务（Inventory Service）

所有服务通过 REST API 通信，使用 MySQL 作为数据库。
 """

analysis = analyze_system_architecture(system_desc)
print(analysis)

5.3.3 Opus 使用策略

何时使用 Opus

任务复杂度高，Sonnet 无法给出满意结果
需要最高质量的输出（如对外发布的文档）
关键决策需要最可靠的推理
预算充足，不考虑成本

如何降低成本

只在必要时使用 Opus（如代码审查的最终检查）
使用 Haiku/Sonnet 做初筛，Opus 做最终决策
利用 Prompt Caching 缓存长提示
对于非紧急任务，使用 Batch API

python 复制代码

# 混合使用策略示例
def hybrid_code_review(code: str):
    """混合使用不同模型进行代码审查"""
    
    # 第一步：用 Haiku 快速检查基本问题
    print("Step 1: Haiku 快速检查...")
    haiku_response = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=1024,
        messages=[{"role": "user", "content": f"快速检查代码的基本问题：\n{code}"}]
    )
    basic_issues = haiku_response.content[0].text
    
    # 第二步：用 Sonnet 5 进行深入分析
    print("Step 2: Sonnet 5 深入分析...")
    sonnet_response = client.messages.create(
        model="claude-sonnet-5",
        max_tokens=2048,
        messages=[{"role": "user", "content": f"深入分析以下代码的设计问题：\n{code}"}]
    )
    design_issues = sonnet_response.content[0].text
    
    # 第三步：用 Opus 4.8 做最终决策（只对有争议的问题）
    print("Step 3: Opus 4.8 最终决策...")
    opus_response = client.messages.create(
        model="claude-opus-4-8",
        max_tokens=2048,
        messages=[{
            "role": "user",
            "content": f"""
            Haiku 发现的问题：{basic_issues}
            Sonnet 发现的问题：{design_issues}
            
            请判断哪些问题是真正需要修复的，按优先级排序。
            """
        }]
    )
    final_decision = opus_response.content[0].text
    
    return {
        "basic_issues": basic_issues,
        "design_issues": design_issues,
        "final_decision": final_decision
    }

六、多维度横向对比总表

6.1 功能对比表

功能维度	Haiku 4.5	Sonnet 4.6	Sonnet 5	Opus 4.8
上下文窗口	200K	1M	1M	1M
推理速度	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
编码能力	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
推理能力	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Agentic 能力	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
工具使用	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
幻觉率	中等	低	很低	最低
多语言支持	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
长文档处理	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐

6.2 定价对比表（详细）

模型	Input($/MTok)	Output($/MTok)	Batch Input	Batch Output	优惠期
Haiku 4.5	$1.00	$5.00	$0.50	$2.50	-
Sonnet 4.6	$3.00	$15.00	$1.50	$7.50	-
Sonnet 5	$2.00*	$10.00*	$1.00	$5.00	至2026-08-31
Opus 4.7	$5.00	$25.00	$2.50	$12.50	-
Opus 4.8	$5.00	$25.00	$2.50	$12.50	-
Fable 5	$10.00	$50.00	$5.00	$25.00	-

6.3 适用场景推荐表

应用场景	推荐模型	理由
客服问答	Haiku 4.5	高频调用，成本敏感
内容审核	Haiku 4.5	简单分类任务
数据提取	Haiku 4.5	结构化输出，批量处理
简单代码补全	Haiku 4.5	快速响应
日常编程助手	Sonnet 5	均衡性能，优惠定价
代码审查	Sonnet 5	理解代码上下文
技术文档撰写	Sonnet 5	质量与成本平衡
API 集成	Sonnet 5	Agentic 能力
架构设计	Opus 4.8	需要深度推理
复杂算法实现	Opus 4.8	创新和优化
关键决策支持	Opus 4.8	最高可靠性
研究任务	Opus 4.8	前沿知识

6.4 性能/价格比值对比

模型	性能评分*	价格评分**	性价比	推荐指数
Haiku 4.5	6/10	10/10	60	⭐⭐⭐⭐⭐
Sonnet 4.6	8.5/10	7/10	59.5	⭐⭐⭐⭐
Sonnet 5	9/10	9/10*	81	⭐⭐⭐⭐⭐
Opus 4.8	9.5/10	5/10	47.5	⭐⭐⭐
Fable 5	9/10	3/10	27	⭐⭐

性能评分：综合编码、推理、Agentic 能力

*价格评分：越低越好（10=最便宜）

**Sonnet 5 优惠期价格评分

结论：Sonnet 5 在优惠期内的性价比最高，强烈推荐！

七、选型决策指南

7.1 选型决策树（Mermaid Flowchart）

#mermaid-svg-XbVamqfFIb6qJU41{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-XbVamqfFIb6qJU41 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-XbVamqfFIb6qJU41 .error-icon{fill:#552222;}#mermaid-svg-XbVamqfFIb6qJU41 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-XbVamqfFIb6qJU41 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-XbVamqfFIb6qJU41 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-XbVamqfFIb6qJU41 .marker.cross{stroke:#333333;}#mermaid-svg-XbVamqfFIb6qJU41 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-XbVamqfFIb6qJU41 p{margin:0;}#mermaid-svg-XbVamqfFIb6qJU41 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-XbVamqfFIb6qJU41 .cluster-label text{fill:#333;}#mermaid-svg-XbVamqfFIb6qJU41 .cluster-label span{color:#333;}#mermaid-svg-XbVamqfFIb6qJU41 .cluster-label span p{background-color:transparent;}#mermaid-svg-XbVamqfFIb6qJU41 .label text,#mermaid-svg-XbVamqfFIb6qJU41 span{fill:#333;color:#333;}#mermaid-svg-XbVamqfFIb6qJU41 .node rect,#mermaid-svg-XbVamqfFIb6qJU41 .node circle,#mermaid-svg-XbVamqfFIb6qJU41 .node ellipse,#mermaid-svg-XbVamqfFIb6qJU41 .node polygon,#mermaid-svg-XbVamqfFIb6qJU41 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-XbVamqfFIb6qJU41 .rough-node .label text,#mermaid-svg-XbVamqfFIb6qJU41 .node .label text,#mermaid-svg-XbVamqfFIb6qJU41 .image-shape .label,#mermaid-svg-XbVamqfFIb6qJU41 .icon-shape .label{text-anchor:middle;}#mermaid-svg-XbVamqfFIb6qJU41 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-XbVamqfFIb6qJU41 .rough-node .label,#mermaid-svg-XbVamqfFIb6qJU41 .node .label,#mermaid-svg-XbVamqfFIb6qJU41 .image-shape .label,#mermaid-svg-XbVamqfFIb6qJU41 .icon-shape .label{text-align:center;}#mermaid-svg-XbVamqfFIb6qJU41 .node.clickable{cursor:pointer;}#mermaid-svg-XbVamqfFIb6qJU41 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-XbVamqfFIb6qJU41 .arrowheadPath{fill:#333333;}#mermaid-svg-XbVamqfFIb6qJU41 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-XbVamqfFIb6qJU41 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-XbVamqfFIb6qJU41 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-XbVamqfFIb6qJU41 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-XbVamqfFIb6qJU41 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-XbVamqfFIb6qJU41 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-XbVamqfFIb6qJU41 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-XbVamqfFIb6qJU41 .cluster text{fill:#333;}#mermaid-svg-XbVamqfFIb6qJU41 .cluster span{color:#333;}#mermaid-svg-XbVamqfFIb6qJU41 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-XbVamqfFIb6qJU41 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-XbVamqfFIb6qJU41 rect.text{fill:none;stroke-width:0;}#mermaid-svg-XbVamqfFIb6qJU41 .icon-shape,#mermaid-svg-XbVamqfFIb6qJU41 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-XbVamqfFIb6qJU41 .icon-shape p,#mermaid-svg-XbVamqfFIb6qJU41 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-XbVamqfFIb6qJU41 .icon-shape .label rect,#mermaid-svg-XbVamqfFIb6qJU41 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-XbVamqfFIb6qJU41 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-XbVamqfFIb6qJU41 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-XbVamqfFIb6qJU41 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 简单任务

分类/摘要/简单问答
中等复杂度

代码生成/技术分析
高复杂度

架构设计/复杂推理
高频调用

万次/天以上
中等调用量
低频高质量
成本敏感
预算充足
开始选型
任务复杂度？
Haiku 4.5
调用量？
Opus 4.8
Haiku 4.5
预算？
Sonnet 5

优惠期内
考虑 Batch API

进一步降低成本
2026-08-31 前

享受优惠价
使用 Prompt Caching

降低成本

决策树使用说明：

从"开始选型"节点开始
按问题顺序回答
跟随箭头到达推荐的模型
参考后续优化建议

7.2 三步走选型策略

第一步：看任务复杂度

简单任务 → Haiku 4.5
日常中等任务 → Sonnet 5
复杂高难任务 → Opus 4.8

第二步：看调用量

万次/天以上 → Haiku 4.5（成本主导）
中等调用量 → Sonnet 5（性价比主导）
低频高质量 → Opus 4.8（质量主导）

第三步：A/B 测试验证

不确定时，不要猜------做 A/B 测试。

python 复制代码

# A/B 测试框架示例
import anthropic
import time
from typing import List, Dict

class ModelComparator:
    def __init__(self, api_key: str):
        self.client = anthropic.Anthropic(api_key=api_key)
        
    def compare_models(self, prompt: str, models: List[str], test_cases: int = 10):
        """对比不同模型的表现"""
        results = {model: {"time": [], "tokens": [], "cost": []} for model in models}
        
        for i in range(test_cases):
            for model in models:
                start = time.time()
                
                response = self.client.messages.create(
                    model=model,
                    max_tokens=1024,
                    messages=[{"role": "user", "content": prompt}]
                )
                
                elapsed = time.time() - start
                
                # 计算成本
                input_cost = response.usage.input_tokens / 1_000_000 * self.get_input_price(model)
                output_cost = response.usage.output_tokens / 1_000_000 * self.get_output_price(model)
                total_cost = input_cost + output_cost
                
                results[model]["time"].append(elapsed)
                results[model]["tokens"].append(response.usage.output_tokens)
                results[model]["cost"].append(total_cost)
        
        # 汇总结果
        summary = {}
        for model, data in results.items():
            summary[model] = {
                "avg_time": sum(data["time"]) / len(data["time"]),
                "avg_tokens": sum(data["tokens"]) / len(data["tokens"]),
                "avg_cost": sum(data["cost"]) / len(data["cost"]),
                "total_cost": sum(data["cost"])
            }
        
        return summary
    
    def get_input_price(self, model: str) -> float:
        prices = {
            "claude-haiku-4-5": 1.00,
            "claude-sonnet-5": 2.00,  # 优惠期
            "claude-opus-4-8": 5.00
        }
        return prices.get(model, 3.00)
    
    def get_output_price(self, model: str) -> float:
        prices = {
            "claude-haiku-4-5": 5.00,
            "claude-sonnet-5": 10.00,  # 优惠期
            "claude-opus-4-8": 25.00
        }
        return prices.get(model, 15.00)

# 使用示例
comparator = ModelComparator(api_key="sk-你的API密钥")

prompt = "用 Python 实现一个快速排序算法"
models_to_test = ["claude-haiku-4-5", "claude-sonnet-5", "claude-opus-4-8"]

results = comparator.compare_models(prompt, models_to_test, test_cases=20)

for model, metrics in results.items():
    print(f"\n{model}:")
    print(f"  平均响应时间: {metrics['avg_time']:.2f}s")
    print(f"  平均输出 tokens: {metrics['avg_tokens']:.0f}")
    print(f"  平均成本: ${metrics['avg_cost']:.4f}")
    print(f"  总成本（20次）: ${metrics['total_cost']:.4f}")

7.3 选型检查清单

在最终决定前，检查以下事项：

任务复杂度是否匹配模型能力？
日均调用量是否在预算范围内？
是否考虑了 Prompt Caching 和 Batch API？
是否做了 A/B 测试验证？
是否有 fallback 策略（如 Haiku → Sonnet → Opus）？
是否考虑了 Sonnet 5 的优惠期（至 2026-08-31）？

八、Claude Code 中的模型切换实战

Claude Code 是 Anthropic 官方的 CLI 工具，支持多模型切换。

8.1 安装 Claude Code

bash 复制代码

# 使用 npm 安装（需要 Node.js 18+）
npm install -g @anthropic-ai/claude-code

# 或使用 pip 安装（需要 Python 3.8+）
pip install claude-code

# 验证安装
claude --version

8.2 配置 API 密钥

bash 复制代码

# 方法1：环境变量
export ANTHROPIC_API_KEY="sk-你的API密钥"

# 方法2：配置文件
claude config set apiKey "sk-你的API密钥"

# 方法3：.env 文件（推荐）
echo "ANTHROPIC_API_KEY=sk-你的API密钥" > .env

8.3 完整配置步骤

步骤1：创建配置文件

json 复制代码

// ~/.config/claude-code/settings.json
{
  "env": {
    "ANTHROPIC_AUTH_TOKEN": "sk-你的API密钥",
    "ANTHROPIC_BASE_URL": "https://api.anthropic.com",
    "ANTHROPIC_MODEL": "claude-sonnet-5",
    "ANTHROPIC_SMALL_FAST_MODEL": "claude-haiku-4-5",
    "ANTHROPIC_MAX_TOKENS": "4096",
    "ANTHROPIC_TEMPERATURE": "0.7"
  },
  "models": {
    "default": "claude-sonnet-5",
    "coding": "claude-sonnet-5",
    "chat": "claude-haiku-4-5",
    "complex": "claude-opus-4-8",
    "agentic": "claude-sonnet-5"
  },
  "features": {
    "promptCaching": true,
    "batchAPI": false,
    "streaming": true
  }
}

步骤2：CLI 命令配置

bash 复制代码

# 设置默认模型
claude config set model claude-sonnet-5

# 设置快速模型（用于简单任务）
claude config set smallFastModel claude-haiku-4-5

# 设置最大 tokens
claude config set maxTokens 4096

# 设置温度
claude config set temperature 0.7

# 启用 Prompt Caching
claude config set promptCaching true

# 查看所有配置
claude config list

步骤3：为不同项目设置不同配置

bash 复制代码

# 在项目根目录创建 .claude-code.json
cat > .claude-code.json << EOF
{
  "model": "claude-opus-4-8",
  "maxTokens": 8192,
  "temperature": 0.3,
  "note": "这是一个关键项目，使用 Opus 确保质量"
}
EOF

# Claude Code 会自动读取项目目录下的配置文件

8.4 模型切换示例

bash 复制代码

# 临时切换模型（单次命令）
claude --model claude-haiku-4-5 "简单问答：Python 如何读取文件？"

# 临时切换模型（交互模式）
claude --model claude-opus-4-8
> 设计一个高并发的分布式系统架构

# 在交互模式中动态切换
claude
> /model claude-sonnet-5
已切换到 claude-sonnet-5

> /model claude-opus-4-8
已切换到 claude-opus-4-8

8.5 settings.json 完整示例

json 复制代码

{
  "version": "1.0.0",
  "anthropic": {
    "apiKey": "sk-你的API密钥",
    "baseUrl": "https://api.anthropic.com",
    "models": {
      "default": "claude-sonnet-5",
      "light": "claude-haiku-4-5",
      "heavy": "claude-opus-4-8"
    }
  },
  "preferences": {
    "maxTokens": 4096,
    "temperature": 0.7,
    "streaming": true,
    "showTokenCount": true
  },
  "caching": {
    "enabled": true,
    "maxCacheSize": "10MB",
    "ttl": 3600
  },
  "logging": {
    "level": "info",
    "file": "~/.claude-code/logs/debug.log"
  }
}

九、踩坑记录与最佳实践

9.1 常见坑点与解决方案

坑点1：Sonnet 5 的新 tokenizer 导致 token 数增加

Sonnet 5 使用了新的 tokenizer，相同输入会产生 1.0-1.35x 更多 token。

python 复制代码

# 问题示例
text = "这是一个测试文本"
# Sonnet 4.6: 15 tokens
# Sonnet 5: 18 tokens (增加 20%)

# 解决方案：重新计算成本预算
# 如果之前按 Sonnet 4.6 的价格计算成本，现在需要乘以 1.2

坑点2：Prompt Caching 的缓存失效

缓存会在以下情况失效：

系统提示修改
超过缓存 TTL（默认 5 分钟）
请求量超过缓存配额

python 复制代码

# 解决方案：尽量保持系统提示不变
# ❌ 不好的做法
system_prompt = f"你是一位专家。今天是 {datetime.now().date()}。"
# 每次调用系统提示都不同，无法缓存

# ✅ 推荐的做法
system_prompt = "你是一位专家。"
# 系统提示固定，可以缓存

坑点3：Batch API 的结果获取

Batch API 是异步的，需要轮询结果。

python 复制代码

# 完整的 Batch API 使用示例
import anthropic
import time

client = anthropic.Anthropic()

# 提交批量请求
batch_job = client.messages.batch.create(
    requests=[
        {"custom_id": "req-1", "params": {...}},
        {"custom_id": "req-2", "params": {...}},
    ]
)

job_id = batch_job.id
print(f"Batch job submitted: {job_id}")

# 轮询结果
while True:
    status = client.messages.batch.get(job_id)
    if status.status == "completed":
        print("Batch job completed!")
        results = status.results
        break
    elif status.status == "failed":
        print("Batch job failed!")
        break
    else:
        print(f"Status: {status.status}, waiting...")
        time.sleep(10)

坑点4：Opus 的响应速度慢

Opus 4.8 的推理速度比 Haiku 慢 3-5 倍。

python 复制代码

# 解决方案1：设置合理的 timeout
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    timeout=60,  # 设置 60 秒超时
    messages=[...]
)

# 解决方案2：使用流式输出
with client.messages.stream(
    model="claude-opus-4-8",
    max_tokens=4096,
    messages=[...]
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

9.2 最佳实践

实践1：分层调用策略

python 复制代码

# 根据任务复杂度自动选择模型
def auto_select_model(task_complexity: str) -> str:
    """根据任务复杂度自动选择模型"""
    model_map = {
        "simple": "claude-haiku-4-5",
        "medium": "claude-sonnet-5",
        "complex": "claude-opus-4-8"
    }
    return model_map.get(task_complexity, "claude-sonnet-5")

# 使用示例
tasks = [
    ("simple", "对这个句子进行情感分析"),
    ("medium", "用 Python 实现一个排序算法"),
    ("complex", "设计分布式系统架构")
]

for complexity, prompt in tasks:
    model = auto_select_model(complexity)
    print(f"Task: {prompt[:30]}... -> Model: {model}")

实践2：成本监控

python 复制代码

# 成本监控装饰器
import functools
from datetime import datetime

class CostTracker:
    def __init__(self):
        self.daily_cost = {}
        self.monthly_cost = {}
    
    def track_cost(self, model: str, input_tokens: int, output_tokens: int):
        """记录成本"""
        input_price = self.get_input_price(model)
        output_price = self.get_output_price(model)
        
        cost = (input_tokens / 1_000_000 * input_price + 
                output_tokens / 1_000_000 * output_price)
        
        today = datetime.now().strftime("%Y-%m-%d")
        self.daily_cost[today] = self.daily_cost.get(today, 0) + cost
        
        month = datetime.now().strftime("%Y-%m")
        self.monthly_cost[month] = self.monthly_cost.get(month, 0) + cost
        
        return cost
    
    def get_input_price(self, model: str) -> float:
        prices = {
            "claude-haiku-4-5": 1.00,
            "claude-sonnet-5": 2.00,
            "claude-opus-4-8": 5.00
        }
        return prices.get(model, 3.00)
    
    def get_output_price(self, model: str) -> float:
        prices = {
            "claude-haiku-4-5": 5.00,
            "claude-sonnet-5": 10.00,
            "claude-opus-4-8": 25.00
        }
        return prices.get(model, 15.00)
    
    def print_report(self):
        """打印成本报告"""
        print("\n=== 成本报告 ===")
        print(f"今日成本: ${self.daily_cost.get(datetime.now().strftime('%Y-%m-%d'), 0):.2f}")
        print(f"本月成本: ${self.monthly_cost.get(datetime.now().strftime('%Y-%m'), 0):.2f}")

# 使用
tracker = CostTracker()

# 在每次 API 调用后记录
# cost = tracker.track_cost(model, input_tokens, output_tokens)
# tracker.print_report()

实践3：错误处理与重试

python 复制代码

import anthropic
from tenacity import retry, stop_after_attempt, wait_exponential

client = anthropic.Anthropic()

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def call_claude_with_retry(model: str, prompt: str):
    """带重试的 Claude API 调用"""
    try:
        response = client.messages.create(
            model=model,
            max_tokens=1024,
            messages=[{"role": "user", "content": prompt}]
        )
        return response.content[0].text
    except anthropic.RateLimitError:
        print("遇到速率限制，等待后重试...")
        raise
    except anthropic.APIError as e:
        print(f"API 错误: {e}")
        raise

# 使用示例
try:
    result = call_claude_with_retry("claude-sonnet-5", "解释量子计算")
    print(result)
except Exception as e:
    print(f"最终失败: {e}")

十、总结与展望

10.1 核心要点回顾

Haiku 4.5：性价比之王，适合高频低成本任务
- 定价： $1/$ 5
- 最佳场景：分类、摘要、简单问答
- Batch API 后仅需 $0.50/$ 2.50
Sonnet 5：大多数人的最优解，优惠期内性价比极高
- 优惠期定价（至 2026-08-31）： $2/$ 10
- 重大更新：最强 Agentic 能力
- 推荐：现在就切换到 Sonnet 5
Opus 4.8：旗舰型号，复杂任务终极选择
- 定价： $5/$ 25
- 最佳场景：架构设计、复杂推理、关键决策
- 使用策略：混合使用，只在必要时调用

10.2 选型速查表

如果你...	选择...
需要高频调用（万次/天以上）	Haiku 4.5
预算有限，需要均衡性能	Sonnet 5（优惠期内）
需要 Agentic 能力	Sonnet 5
处理 1M+ 长文档	Sonnet 5 或 Opus 4.8
做架构设计或复杂决策	Opus 4.8
不确定该选哪个	从 Sonnet 5 开始试水

10.3 未来展望

2026 年下半年预期

Sonnet 5 优惠期结束（2026-08-31），价格恢复为 $3/$ 15
Opus 5 可能发布（预计 2026 Q4）
Claude 上下文窗口可能扩展到 2M
Agentic 能力将持续增强

建议

在 2026-08-31 前尽可能使用 Sonnet 5（享受优惠价）
关注 Opus 5 的发布（可能带来性能飞跃）
开始尝试 Agentic 工作流（这是未来趋势）

10.4 最终建议

对于个人开发者

日常使用：Sonnet 5
学习尝试：Haiku 4.5
重要项目：Opus 4.8

对于团队/公司

生产环境：Haiku 4.5（高频）+ Sonnet 5（中频）
关键业务：Opus 4.8
成本优化：Prompt Caching + Batch API

对于技术决策者

制定明确的模型使用规范
建立成本监控机制
定期评估和优化（模型在快速迭代）

参考资料

Anthropic 官方文档

https://docs.anthropic.com/claude/docs

最权威的 Claude API 文档
Claude 模型定价页面

https://www.anthropic.com/pricing

最新的定价信息
Sonnet 5 发布博客

https://www.anthropic.com/news/claude-sonnet-5

Sonnet 5 的详细更新说明
SWE-bench 排行榜

https://www.swebench.com/

代码生成能力基准测试
Anthropic Prompt Engineering Guide

https://docs.anthropic.com/claude/docs/prompt-engineering

提示工程最佳实践
Claude Code GitHub 仓库

https://github.com/anthropics/claude-code

Claude Code CLI 工具源码
BrowseComp 基准测试

https://arxiv.org/abs/2504.10012

智能体搜索评测论文
OSWorld 基准测试

https://arxiv.org/abs/2404.07972

计算机使用评测论文

如果你觉得这篇文章对你有帮助，请点赞、收藏、关注三连 ❤️

有任何问题或不同见解，欢迎在评论区讨论！