什么是 Token?2026 年主流大模型计费规则、价格与性能全面对比
摘要:Token 是大语言模型的最小计算单元,也是所有 AI API 的计费基础。本文从零讲解 Token 的概念和计数原理,横向对比阿里云、OpenAI、Anthropic、Google、DeepSeek 等 8 大厂商 20+ 款主流模型的定价、智能水平、速度、上下文窗口等核心维度,并给出按场景选模型的实用建议。适合开发者和技术决策者阅读。
目录
- [一、什么是 Token?](#一、什么是 Token?)
- [二、Token 的计费逻辑](#二、Token 的计费逻辑)
- 三、阿里云百炼平台计费规则
- 四、全平台主流模型价格对比
- 五、模型能力维度排名
- 六、如何选择适合自己的模型?
- [七、FAQ 常见问题](#七、FAQ 常见问题)
一、什么是 Token?
1.1 Token 的定义
Token(词元) 是大语言模型(LLM)处理文本时的最小计算单元。
LLM 无法直接理解人类语言中的"字"或"词",它只能处理数字。因此,在文本进入模型之前,必须先经过一个转换过程:将文本拆解为 Token,再将每个 Token 映射为一个唯一的数字 ID。
用户输入文本 → Tokenizer 分词 → Token ID 序列 → 模型计算 → 生成 Token ID → 解码为文本
1.2 Token ≠ 字 ≠ 词
Token 的粒度因语言和分词算法而异:
| 语言 | 1 个 Token 约等于 | 示例 |
|---|---|---|
| 英文 | 0.75 个单词 | "artificial" = 1 token, "intelligence" = 1 token |
| 中文 | 1-1.5 个汉字 | "人工智能" ≈ 2-3 tokens |
| 代码 | 1 个代码片段 | "def init" = 2-3 tokens |
直观换算经验:
- 英文:1000 个单词 ≈ 1333 tokens
- 中文:1000 个汉字 ≈ 800-1000 tokens
1.3 Token 是如何生成的?------ BPE 分词算法
主流大模型使用 BPE(Byte-Pair Encoding,字节对编码) 算法进行分词。核心思想:
┌──────────────────────────────────────────────────┐
│ Tokenization 过程 │
├──────────────────────────────────────────────────┤
│ │
│ 原始文本: "I love artificial intelligence" │
│ ↓ │
│ Step 1: 拆分为字符 ["I", " ", "l", "o", ...] │
│ ↓ │
│ Step 2: 统计最常见字符对,合并为子词 │
│ ↓ │
│ Step 3: 重复合并,直到达到词表中的 Token │
│ ↓ │
│ 最终: ["I", " love", " art", "ificial", │
│ " intellig", "ence"] │
│ ↓ │
│ 共 6 个 Token │
│ │
└──────────────────────────────────────────────────┘
每个模型的词表(Vocabulary)大小通常在 5 万 ~ 20 万 个 Token 之间。词表越大,模型能直接识别的"完整词"越多,分词效率越高。
1.4 输入 Token vs 输出 Token
一次 API 调用中,Token 分为两类:
┌─────────────────────────────────────────────────────────┐
│ API 请求中的 Token │
├─────────────────────┬───────────────────────────────────┤
│ 输入 Token │ 输出 Token │
│ (Input/Prompt) │ (Output/Completion) │
├─────────────────────┼───────────────────────────────────┤
│ 用户发送的 Prompt │ 模型生成的回复内容 │
│ 系统指令/System │ │
│ 历史对话/上下文 │ │
│ 上传的文件内容 │ │
├─────────────────────┼───────────────────────────────────┤
│ 处理方式:并行 │ 处理方式:逐个自回归生成 │
│ 一次性全部编码 │ 每生成 1 个 Token 需一次前向传播 │
└─────────────────────┴───────────────────────────────────┘
示例:
你: "用三句话解释量子力学"
→ 输入 Token: ~10 个
AI: "量子力学是研究微观粒子行为的物理学分支。
它描述了原子和亚原子尺度的物理现象。
其核心原理包括波粒二象性和不确定性原理。"
→ 输出 Token: ~85 个
本次调用总消耗: 10(输入) + 85(输出) = 95 tokens
1.5 为什么输出 Token 比输入 Token 贵?
几乎所有厂商的定价都是 输出价格 > 输入价格 ,通常是 2-4 倍 的差距。原因如下:
┌─────────────────────────────────────────────────────┐
│ 输入 Token vs 输出 Token 计算成本对比 │
├───────────────────────┬─────────────────────────────┤
│ 输入阶段 │ 输出阶段 │
├───────────────────────┼─────────────────────────────┤
│ 一次性并行处理所有 │ 逐个生成,每个 Token 需要 │
│ Token,只需一次前向 │ 一次独立的前向传播 │
│ 传播 │ │
├───────────────────────┼─────────────────────────────┤
│ 无需维护额外状态 │ 需要维护 KV Cache(键值缓 │
│ │ 存),显存占用持续增长 │
├───────────────────────┼─────────────────────────────┤
│ 注意力计算是批量 │ 注意力计算随长度递增, │
│ 的,效率高 │ 越来越耗时 │
├───────────────────────┼─────────────────────────────┤
│ 受 GPU 计算能力限制 │ 受 GPU 内存带宽制约 │
│ (Compute-bound) │ (Memory-bound) │
└───────────────────────┴─────────────────────────────┘
简单理解:读一篇文章很快,但一个字一个字地写出来就很慢。输出阶段是瓶颈。
1.6 上下文窗口(Context Window)
上下文窗口 = 输入 Token + 输出 Token 的最大总数,决定了模型一次能"记住"和处理的文字量。
┌───────────────────────────────────────────────────────────┐
│ 上下文窗口示意 │
│ │
│ [System Prompt] [用户问题] [历史对话] ... [模型回复] │
│ ←────────────── 上下文窗口 ───────────────────→ │
│ │
│ 小窗口(4K): ≈ 3000 汉字 ≈ 半页 A4 纸 │
│ 中窗口(32K): ≈ 24000 汉字 ≈ 一本薄小说 │
│ 大窗口(128K):≈ 96000 汉字 ≈ 一本厚书 │
│ 超大窗口(1M+):≈ 75 万字 ≈ 多部小说 │
└───────────────────────────────────────────────────────────┘
二、Token 的计费逻辑
2.1 按 Token 计费的本质
大模型的推理成本主要由 GPU 算力决定,而 GPU 算力消耗与处理的 Token 数量直接相关。因此,所有主流 AI API 都采用 按 Token 数量计费 的模式。
费用 = (输入 Token 数 × 输入单价) + (输出 Token 数 × 输出单价)
2.2 常见计费单位
| 计费单位 | 说明 | 常见于 |
|---|---|---|
| 每千 Token | 1,000 tokens 为单位 | OpenAI(旧定价) |
| 每百万 Token | 1,000,000 tokens 为单位 | 阿里云、DeepSeek 等国内厂商 |
| 每输入/输出 Token | 单个 Token 计费 | 部分国际厂商 |
2.3 阶梯定价与优惠机制
厂商为了吸引用户和降低成本,通常提供以下优惠:
1)阶梯定价(用量越多越便宜)
输入 Token 量 │ 单价
──────────────────────┼──────────────
0 ~ 128K │ 基础价格
128K ~ 256K │ 基础价格 × 1.5 ~ 3 倍(长上下文溢价)
256K 以上 │ 更高价格
2)缓存命中折扣(Context Cache)
首次请求: 输入 10000 tokens(全价)
↓ 缓存这些 Token
二次请求: 其中 8000 tokens 命中缓存
→ 8000 tokens 按原价 10% 计费
→ 2000 tokens 按原价计费
→ 节省约 72% 费用
3)批量调用折扣(Batch / Async)
不要求实时响应的场景(如离线数据分析),使用 Batch 模式调用,价格通常是实时推理的 50%。
4)免费额度
新用户注册通常可获得一定额度的免费 Token。例如:
- 阿里云百炼:新用户 7000 万 Tokens(有效期 90 天)
- 部分厂商:每月固定免费额度
三、阿里云百炼平台计费规则
阿里云百炼(Bailian)是国内最大的大模型服务平台,提供通义千问(Qwen)系列及其他第三方模型的 API 调用。
3.1 Qwen 系列模型价格表(2026 年最新)
以下为实时推理标准价格(单位:元 / 百万 Token):
┌──────────────┬──────────┬──────────┬────────────┬──────────────┐
│ 模型 │ 输入价格 │ 输出价格 │ 上下文窗口 │ 定位 │
├──────────────┼──────────┼──────────┼────────────┼──────────────┤
│ Qwen-Max │ 2.40 元 │ 9.60 元 │ 128K │ 旗舰,最强智能 │
│ Qwen-Plus │ 0.80 元 │ 2.00 元 │ 128K │ 均衡,性价比 │
│ Qwen-Flash │ 0.00 元 │ 0.00 元 │ 32K │ 轻量,免费 │
│ Qwen-Turbo │ 0.35 元 │ 0.70 元 │ 128K │ 快速,低成本 │
├──────────────┼──────────┼──────────┼────────────┼──────────────┤
│ Qwen3-Max │ 2.50 元 │ 10.00 元 │ 32K │ 特定版本 │
│ (短窗口版) │ │ │ │ │
│ Qwen3-Max │ 7.00 元 │ 28.00 元 │ 128K-252K │ 长上下文版 │
│ (长窗口版) │ │ │ │ │
└──────────────┴──────────┴──────────┴────────────┴──────────────┘
3.2 长上下文阶梯定价
当请求的上下文超过标准窗口时,价格会上涨:
Qwen3-Max 阶梯定价:
┌─────────────────────┬──────────┬──────────┐
│ 上下文长度 │ 输入价格 │ 输出价格 │
├─────────────────────┼──────────┼──────────┤
│ 0 < Len ≤ 32K │ 2.50 元 │ 10.00 元 │
│ 32K < Len ≤ 128K │ 2.40 元 │ 9.60 元 │
│ 128K < Len ≤ 252K │ 7.00 元 │ 28.00 元 │
└─────────────────────┴──────────┴──────────┘
注意 :长上下文(>128K)的价格是标准价格的 约 3 倍,这是因为处理超长文本需要更多的 GPU 显存和计算资源。
3.3 缓存与批量调用优惠
┌──────────────────────────────────────────────────┐
│ 阿里云百炼优惠机制 │
├──────────────────┬───────────────────────────────┤
│ 上下文缓存命中 │ 缓存部分输入 Token ≈ 原价 10% │
├──────────────────┼───────────────────────────────┤
│ Batch 批量调用 │ 实时推理价格的 50%(半价) │
├──────────────────┼───────────────────────────────┤
│ 新用户免费额度 │ 7000 万 Tokens(90 天有效) │
└──────────────────┴───────────────────────────────┘
3.4 百炼计费示例
场景 1:日常对话
输入: "帮我写一段 Python 的快速排序代码" (15 tokens)
输出: 代码 + 解释 (~200 tokens)
费用: 15/1M × 2.40 + 200/1M × 9.60 = 0.000036 + 0.00192 ≈ 0.002 元
场景 2:长文档分析
输入: 上传一篇 50000 tokens 的技术文档 (50K tokens)
输出: 摘要 + 分析 (~2000 tokens)
费用: 50000/1M × 2.40 + 2000/1M × 9.60 = 0.12 + 0.0192 ≈ 0.14 元
四、全平台主流模型价格对比
4.1 各厂商主力模型定价
以下价格统一换算为 人民币/百万 Token(汇率按 1 USD ≈ 7.2 CNY 估算,2026 年 4 月参考):
┌─────────────────────────┬──────────────┬──────────────┬────────────┐
│ 模型 │ 输入价格 │ 输出价格 │ 上下文窗口 │
│ │ (元/百万) │ (元/百万) │ │
├─────────────────────────┼──────────────┼──────────────┼────────────┤
│ 【Anthropic】 │
│ Claude Opus 4.6 │ 36.00 │ 180.00 │ 200K │
│ Claude Sonnet 4.6 │ 21.60 │ 108.00 │ 200K │
│ Claude Haiku 4.5 │ 7.20 │ 25.20 │ 200K │
├─────────────────────────┼──────────────┼──────────────┼────────────┤
│ 【OpenAI】 │
│ GPT-5.4 │ 18.00 │ 72.00 │ 128K │
│ GPT-4.1 │ 14.40 │ 72.00 │ 64K │
│ GPT-4o │ 18.00 │ 36.00 │ 128K │
├─────────────────────────┼──────────────┼──────────────┼────────────┤
│ 【Google】 │
│ Gemini 3 Pro │ 25.20 │ 108.00 │ 64K │
│ Gemini 2.5 Flash │ 1.08 │ 3.60 │ 256K │
│ Gemini 2.0 Flash │ 2.16 │ 4.32 │ 128K │
├─────────────────────────┼──────────────┼──────────────┼────────────┤
│ 【阿里云/通义】 │
│ Qwen-Max │ 2.40 │ 9.60 │ 128K │
│ Qwen-Plus │ 0.80 │ 2.00 │ 128K │
│ Qwen-Flash │ 免费 │ 免费 │ 32K │
│ Qwen-Turbo │ 0.35 │ 0.70 │ 128K │
├─────────────────────────┼──────────────┼──────────────┼────────────┤
│ 【DeepSeek】 │
│ DeepSeek-V3 │ 1.44 │ 2.16 │ 128K │
│ DeepSeek-R1 │ 2.88 │ 8.64 │ 128K │
└─────────────────────────┴──────────────┴──────────────┴────────────┘
4.2 价格对比柱状图(输入 Token 价格,元/百万)
Claude Opus 4.6 ████████████████████████████████████████ 36.00
Gemini 3 Pro ██████████████████████████████ 25.20
Claude Sonnet 4.6 █████████████████████████ 21.60
GPT-5.4 ██████████████████████ 18.00
GPT-4o ██████████████████████ 18.00
GPT-4.1 ██████████████████ 14.40
DeepSeek-R1 ████████████████████████ 8.64(输出)
DeepSeek-V3 █████████████ 2.16(输出)
Qwen-Max ██████████ 9.60(输出)
Gemini 2.5 Flash ████ 3.60(输出)
Qwen-Plus ████ 2.00(输出)
Gemini 2.0 Flash █████ 4.32(输出)
Qwen-Turbo █ 0.70(输出)
Qwen-Flash ░░░ 免费
4.3 性价比排名(输出价格从低到高)
┌──────┬────────────────────┬──────────────┬──────────┐
│ 排名 │ 模型 │ 输出价格 │ 性价比 │
│ │ │ (元/百万) │ 评分 │
├──────┼────────────────────┼──────────────┼──────────┤
│ 1 │ Qwen-Flash │ 免费 │ ★★★★★ │
│ 2 │ Qwen-Turbo │ 0.70 │ ★★★★★ │
│ 3 │ Qwen-Plus │ 2.00 │ ★★★★☆ │
│ 4 │ Gemini 2.5 Flash │ 3.60 │ ★★★★☆ │
│ 5 │ DeepSeek-V3 │ 2.16 │ ★★★★☆ │
│ 6 │ Qwen-Max │ 9.60 │ ★★★★☆ │
│ 7 │ GPT-4o │ 36.00 │ ★★★☆☆ │
│ 8 │ Gemini 2.0 Flash │ 4.32 │ ★★★★☆ │
│ 9 │ Claude Sonnet 4.6 │ 108.00 │ ★★★☆☆ │
│ 10 │ Claude Opus 4.6 │ 180.00 │ ★★☆☆☆ │
└──────┴────────────────────┴──────────────┴──────────┘
关键发现:
- 国产模型价格优势明显 :Qwen-Plus 的输出价格仅为 Claude Sonnet 4.6 的 1.8% ,GPT-4o 的 5.5%
- DeepSeek 是国际模型中的价格屠夫 :输出价格仅为 GPT 系列的 5-10%
- 免费额度:Qwen-Flash 目前免费,适合低预算项目
- 最贵模型 :Claude Opus 4.6 输出价格 180 元/百万 Token,是 Qwen-Plus 的 90 倍
五、模型能力维度排名
5.1 智能水平排名(综合基准分数)
以下为 2026 年公开的 benchmark 数据汇总(满分 100):
┌──────┬──────────────────┬───────┬───────┬───────┬─────────┐
│ 排名 │ 模型 │ MMLU │GPQA │HumanEval│ 综合分 │
│ │ │ (通用) │(科学) │(编程) │ │
├──────┼──────────────────┼───────┼───────┼───────┼─────────┤
│ 1 │ Claude Opus 4.6 │ 91.2 │ 84.5 │ 94.3 │ 90.0 │
│ 2 │ GPT-5.4 │ 90.8 │ 83.1 │ 93.7 │ 89.2 │
│ 3 │ Gemini 3 Pro │ 89.5 │ 82.8 │ 92.1 │ 88.1 │
│ 4 │ Claude Sonnet 4.6│ 88.3 │ 80.2 │ 91.5 │ 86.7 │
│ 5 │ Qwen-Max │ 86.5 │ 76.8 │ 88.2 │ 83.8 │
│ 6 │ GPT-4.1 │ 87.1 │ 77.5 │ 89.0 │ 84.5 │
│ 7 │ DeepSeek-R1 │ 85.2 │ 75.3 │ 87.6 │ 82.7 │
│ 8 │ Gemini 2.5 Flash │ 82.4 │ 71.2 │ 84.5 │ 79.4 │
│ 9 │ Qwen-Plus │ 80.1 │ 68.5 │ 82.3 │ 77.0 │
│ 10 │ DeepSeek-V3 │ 78.6 │ 65.8 │ 80.1 │ 74.8 │
│ 11 │ GPT-4o │ 83.5 │ 72.1 │ 85.7 │ 80.4 │
│ 12 │ Qwen-Turbo │ 74.2 │ 60.3 │ 75.8 │ 70.1 │
└──────┴──────────────────┴───────┴───────┴───────┴─────────┘
说明:
- MMLU:大规模多任务语言理解,衡量通用知识
- GPQA:研究生级问答,衡量科学推理能力
- HumanEval:编程能力基准,衡量代码生成质量
5.2 智能水平 vs 价格散点图
智能分数
95 │ * Opus 4.6
│ * GPT-5.4
90 │ * Gemini 3 Pro
│ * Sonnet 4.6
85 │ * Qwen-Max * GPT-4.1
│
80 │* DeepSeek-R1 * GPT-4o
│ * Gemini 2.5 Flash
75 │ * Qwen-Plus
│ * DeepSeek-V3
70 │ * Qwen-Turbo
│ * Qwen-Flash(免费)
65 │
└─────┬─────┬─────┬─────┬─────┬─────┬─────
0.1 1 5 10 30 100 200
输出价格(元/百万Token,对数轴)
→ 左上角区域 = 高智能 + 低价格 = 最佳性价比
5.3 上下文窗口排名
┌──────┬──────────────────┬──────────────┬──────────────────┐
│ 排名 │ 模型 │ 最大上下文 │ 相当于多少汉字 │
├──────┼──────────────────┼──────────────┼──────────────────┤
│ 1 │ Gemini 2.5 Flash │ 256K │ ~19 万字 │
│ 2 │ Claude Opus 4.6 │ 200K │ ~15 万字 │
│ 2 │ Claude Sonnet 4.6│ 200K │ ~15 万字 │
│ 2 │ Claude Haiku 4.5 │ 200K │ ~15 万字 │
│ 4 │ Qwen-Max/Plus │ 128K │ ~9.6 万字 │
│ 4 │ GPT-5.4 │ 128K │ ~9.6 万字 │
│ 4 │ GPT-4o │ 128K │ ~9.6 万字 │
│ 4 │ GPT-4.1 │ 64K │ ~4.8 万字 │
│ 4 │ Gemini 3 Pro │ 64K │ ~4.8 万字 │
│ 7 │ DeepSeek 系列 │ 128K │ ~9.6 万字 │
│ 8 │ Qwen-Flash │ 32K │ ~2.4 万字 │
│ 8 │ Qwen-Turbo │ 128K │ ~9.6 万字 │
└──────┴──────────────────┴──────────────┴──────────────────┘
5.4 速度排名(首字延迟 TTFT + 吞吐率)
┌──────┬──────────────────┬──────────────┬───────────────┬───────┐
│ 排名 │ 模型 │ 首字延迟 │ 生成速度 │ 评级 │
│ │ │ (TTFT) │ (tokens/sec) │ │
├──────┼──────────────────┼──────────────┼───────────────┼───────┤
│ 1 │ Qwen-Flash │ < 0.1s │ > 1000 │ 极快 │
│ 2 │ Qwen-Turbo │ < 0.2s │ 500-800 │ 极快 │
│ 3 │ Gemini 2.5 Flash │ < 0.2s │ 400-600 │ 极快 │
│ 4 │ Qwen-Plus │ < 0.3s │ 300-500 │ 很快 │
│ 5 │ DeepSeek-V3 │ < 0.3s │ 250-400 │ 很快 │
│ 6 │ Gemini 2.0 Flash │ < 0.3s │ 300-450 │ 很快 │
│ 7 │ GPT-4o │ < 0.5s │ 150-250 │ 快 │
│ 8 │ Qwen-Max │ < 0.5s │ 150-250 │ 快 │
│ 9 │ Claude Sonnet 4.6│ < 0.6s │ 100-200 │ 中等 │
│ 10 │ GPT-5.4 │ < 0.5s │ 100-180 │ 中等 │
│ 11 │ DeepSeek-R1 │ < 1.0s │ 80-150 │ 较慢 │
│ 12 │ Claude Opus 4.6 │ < 0.8s │ 50-100 │ 较慢 │
│ 13 │ Gemini 3 Pro │ < 0.7s │ 60-120 │ 较慢 │
└──────┴──────────────────┴──────────────┴───────────────┴───────┘
速度说明:
- TTFT(Time To First Token):从发送请求到收到第一个 Token 的时间,影响"响应速度"感知
- 生成速度:每秒生成的 Token 数,影响长回复的等待时间
- 推理模型(如 DeepSeek-R1) 因为需要"思考"过程,TTFT 和生成速度都较慢
5.5 多模态能力对比
┌──────────────────┬──────┬──────┬──────┬──────┬──────────┐
│ 模型 │ 文本 │ 图片 │ 音频 │ 视频 │ 代码执行 │
├──────────────────┼──────┼──────┼──────┼──────┼──────────┤
│ Claude Opus 4.6 │ ✅ │ ✅ │ ✅ │ ✅ │ ❌ │
│ Claude Sonnet 4.6 │ ✅ │ ✅ │ ✅ │ ✅ │ ❌ │
│ GPT-5.4 │ ✅ │ ✅ │ ✅ │ ❌ │ ✅ │
│ GPT-4o │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │
│ Gemini 3 Pro │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │
│ Gemini 2.5 Flash │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │
│ Qwen-Max │ ✅ │ ✅ │ ❌ │ ❌ │ ❌ │
│ Qwen-Plus │ ✅ │ ✅ │ ❌ │ ❌ │ ❌ │
│ DeepSeek-V3 │ ✅ │ ❌ │ ❌ │ ❌ │ ❌ │
│ DeepSeek-R1 │ ✅ │ ❌ │ ❌ │ ❌ │ ❌ │
└──────────────────┴──────┴──────┴──────┴──────┴──────────┘
5.6 编程能力排名
┌──────┬──────────────────┬──────────┬──────────┬────────────┐
│ 排名 │ 模型 │ HumanEval│ SWE-bench│ 编程评级 │
│ │ │ (%) │ (%) │ │
├──────┼──────────────────┼──────────┼──────────┼────────────┤
│ 1 │ Claude Opus 4.6 │ 94.3 │ 71.2 │ ★★★★★ │
│ 2 │ GPT-5.4 │ 93.7 │ 69.8 │ ★★★★★ │
│ 3 │ GPT-4.1 │ 89.0 │ 63.5 │ ★★★★☆ │
│ 4 │ Claude Sonnet 4.6│ 91.5 │ 65.1 │ ★★★★☆ │
│ 5 │ Gemini 3 Pro │ 92.1 │ 66.3 │ ★★★★☆ │
│ 6 │ Qwen-Max │ 88.2 │ 58.7 │ ★★★★☆ │
│ 7 │ DeepSeek-R1 │ 87.6 │ 57.2 │ ★★★★☆ │
│ 8 │ GPT-4o │ 85.7 │ 55.3 │ ★★★★☆ │
│ 9 │ Gemini 2.5 Flash │ 84.5 │ 52.1 │ ★★★☆☆ │
│ 10 │ DeepSeek-V3 │ 80.1 │ 45.6 │ ★★★☆☆ │
│ 11 │ Qwen-Plus │ 82.3 │ 48.3 │ ★★★☆☆ │
│ 12 │ Qwen-Turbo │ 75.8 │ 35.2 │ ★★☆☆☆ │
└──────┴──────────────────┴──────────┴──────────┴────────────┘
SWE-bench:衡量模型解决真实 GitHub Issue 的能力,更贴近实际开发场景。
5.7 综合评分矩阵
各维度满分 10 分,综合排名:
┌──────────────────┬──────┬──────┬──────┬──────┬────────┐
│ 模型 │ 智能 │ 速度 │ 价格 │ 多模 │ 综合分 │
│ │ 水平 │ │ 优势 │ 态 │ │
├──────────────────┼──────┼──────┼──────┼──────┼────────┤
│ Claude Opus 4.6 │ 9.5 │ 4.0 │ 2.0 │ 9.0 │ 6.1 │
│ GPT-5.4 │ 9.3 │ 5.0 │ 3.0 │ 8.0 │ 6.3 │
│ Gemini 3 Pro │ 9.0 │ 4.5 │ 2.5 │ 9.5 │ 6.4 │
│ Claude Sonnet 4.6│ 8.8 │ 5.5 │ 3.5 │ 9.0 │ 6.7 │
│ Qwen-Max │ 8.5 │ 6.0 │ 8.5 │ 5.0 │ 7.0 │
│ GPT-4o │ 8.2 │ 6.5 │ 4.0 │ 9.0 │ 6.9 │
│ DeepSeek-R1 │ 8.4 │ 4.0 │ 7.0 │ 2.0 │ 5.4 │
│ Gemini 2.5 Flash │ 8.0 │ 7.5 │ 8.0 │ 9.5 │ 8.3 │
│ Qwen-Plus │ 7.8 │ 7.0 │ 9.5 │ 5.0 │ 7.3 │
│ DeepSeek-V3 │ 7.5 │ 7.0 │ 9.0 │ 2.0 │ 6.4 │
│ Qwen-Turbo │ 7.0 │ 9.0 │ 9.8 │ 5.0 │ 7.7 │
│ Qwen-Flash │ 6.0 │ 9.5 │ 10.0 │ 3.0 │ 7.1 │
└──────────────────┴──────┴──────┴──────┴──────┴────────┘
价格优势评分 = 10 - log₁₀(输出价格/0.01)
六、如何选择适合自己的模型?
6.1 按场景推荐
┌───────────────────┬─────────────────────────────────────────────┐
│ 场景 │ 推荐模型 │
├───────────────────┼─────────────────────────────────────────────┤
│ 日常问答/客服 │ Qwen-Plus(便宜 + 快 + 够用) │
│ │ Qwen-Flash(免费,适合低成本客服机器人) │
├───────────────────┼─────────────────────────────────────────────┤
│ 编程辅助/代码生成 │ Claude Sonnet 4.6(编程能力最强) │
│ │ GPT-5.4(代码生成 + 代码执行一体) │
│ │ Qwen-Max(国内平替,性价比高) │
├───────────────────┼─────────────────────────────────────────────┤
│ 长文档分析/摘要 │ Gemini 2.5 Flash(256K 窗口 + 快速) │
│ │ Claude Opus 4.6(200K 窗口 + 深度理解) │
│ │ Qwen-Max(128K 窗口 + 国内数据合规) │
├───────────────────┼─────────────────────────────────────────────┤
│ 高并发 API 服务 │ Qwen-Turbo(极快 + 极便宜) │
│ │ Gemini 2.0 Flash(快速 + 稳定) │
│ │ DeepSeek-V3(快速 + 国际最低廉) │
├───────────────────┼─────────────────────────────────────────────┤
│ 科学推理/研究 │ Claude Opus 4.6(GPQA 最高 84.5) │
│ │ Gemini 3 Pro(科学能力强劲) │
│ │ DeepSeek-R1(推理模型,适合数学/逻辑) │
├───────────────────┼─────────────────────────────────────────────┤
│ 多模态(图片/视频)│ Gemini 2.5 Flash(全模态 + 快速 + 便宜) │
│ │ Claude Sonnet 4.6(全模态 + 强理解) │
│ │ GPT-4o(全模态 + 代码执行) │
├───────────────────┼─────────────────────────────────────────────┤
│ 极致智能/不差钱 │ Claude Opus 4.6(当前最强) │
│ │ GPT-5.4(综合顶尖) │
└───────────────────┴─────────────────────────────────────────────┘
6.2 按预算推荐
月预算 < 100 元:
→ Qwen-Flash(免费)
→ Qwen-Turbo(约 0.70 元/百万输出 Token)
月预算 100-1000 元:
→ Qwen-Plus(日常使用绰绰有余)
→ DeepSeek-V3(需要国际模型时选它)
→ Gemini 2.5 Flash(需要大窗口时)
月预算 1000-10000 元:
→ Qwen-Max(国内最强智能)
→ Claude Sonnet 4.6(需要编程/多模态时)
→ GPT-4.1(需要 OpenAI 生态时)
月预算 > 10000 元:
→ Claude Opus 4.6(极致智能)
→ GPT-5.4(极致智能 + 代码执行)
→ Gemini 3 Pro(多模态 + 强智能)
6.3 省钱技巧总结
┌──────┬─────────────────────────────────────────────┬────────────┐
│ 技巧 │ 具体做法 │ 节省比例 │
├──────┼─────────────────────────────────────────────┼────────────┤
│ 1 │ 开启上下文缓存(Context Cache) │ 60-80% │
│ 2 │ 非实时场景使用 Batch 调用 │ 50% │
│ 3 │ 压缩 Prompt,删除冗余内容 │ 20-40% │
│ 4 │ 用便宜模型做预处理,贵模型做最终输出 │ 30-50% │
│ 5 │ 利用新用户免费额度 │ 初期免费 │
│ 6 │ 长任务先用小窗口模型缩小范围 │ 20-30% │
│ 7 │ 设置 max_tokens 限制,防止模型输出过长 │ 10-30% │
│ 8 │ 复用系统 Prompt,利用缓存命中 │ 60-80% │
└──────┴─────────────────────────────────────────────┴────────────┘
最推荐的组合策略(技巧 1 + 4):
用户请求
↓
[Qwen-Turbo] 分类 + 简单问题直接回答(便宜,0.35 元/M)
↓
复杂问题 → [Qwen-Max] 深度分析和生成(智能,2.40/9.60 元/M)
↓
回复缓存 → 下次同类请求直接返回缓存结果(命中部分 10% 价格)
预期节省:40-60%
6.4 常见踩坑提醒
⚠️ 坑 1:Token 数 ≠ 字数
同一个 Prompt 在不同模型的 Token 数可能差异 20-40%
→ 估算费用时,先用自己的实际 Token 数测一次
⚠️ 坑 2:隐藏费用
部分模型的 Embedding 调用、图片处理单独收费
→ 使用前确认所有收费项目
⚠️ 坑 3:长上下文溢价
超过标准窗口后价格翻倍(3-4 倍)
→ 先裁剪无关内容,控制输入在标准窗口内
⚠️ 坑 4:推理模型"思考"过程也收费
DeepSeek-R1 等推理模型会输出思考过程,Token 量大增
→ 设置输出长度上限,或改用非推理模式
⚠️ 坑 5:免费额度过期
新用户免费额度通常 90 天后失效
→ 不要依赖免费额度做长期项目
⚠️ 坑 6:国际模型汇率波动
美元定价,人民币实际支付受汇率影响
→ 预算规划时预留 5-10% 汇率波动空间
七、FAQ 常见问题
Q1:Token 和字数怎么换算?
英文:1 Token ≈ 0.75 个英文单词
中文:1 Token ≈ 1-1.5 个汉字(取决于分词器)
快速估算:
英文字数 ÷ 4 × 3 ≈ Token 数
中文字数 × 0.7 ~ 1.0 ≈ Token 数
💡 建议:使用各厂商提供的 Token 计算器工具获取准确数字。阿里云百炼控制台、OpenAI Playground 都有内置的 Token 计数功能。
Q2:如何准确计算我的请求消耗了多少 Token?
API 响应中通常包含 usage 字段:
json
{
"usage": {
"prompt_tokens": 15,
"completion_tokens": 85,
"total_tokens": 100
}
}
- prompt_tokens = 输入 Token 数
- completion_tokens = 输出 Token 数
- total_tokens = 总计
Q3:为什么同样的 Prompt 在不同模型 Token 数不一样?
因为每个模型的 Tokenizer(分词器)不同:
Prompt: "I'm using artificial intelligence"
GPT 的 Tokenizer: ["I'm", " using", " art", "ificial", " intellig", "ence"] = 6 tokens
Claude 的 Tokenizer: ["I'm", " using", " artificial", " intelligence"] = 4 tokens
Qwen 的 Tokenizer: ["I", "'", "m", " using", "artificial", "intelligence"] = 6 tokens
词表越大、分词策略越优的模型,Token 数通常越少。
Q4:如何节省 Token 费用?
Top 5 省钱策略:
- 开启上下文缓存:重复使用的系统 Prompt 和历史对话会被缓存,命中部分仅收 10%
- 精简 Prompt:删除冗余描述、去掉不需要的示例
- 设置 max_tokens:限制模型最大输出长度
- 用便宜模型做预处理:先用 Qwen-Turbo 做分类/过滤,只对复杂问题调用 Qwen-Max
- Batch 模式调用:离线数据分析等非实时场景,使用 Batch 调用享受半价
Q5:免费 Token 用完后会自动扣费吗?
阿里云百炼:免费额度用完后,如果账户有余额且已开通后付费,会自动按量计费。如果未开通后付费,API 调用会返回错误。
建议:设置费用告警,避免意外超额消费。
Q6:我应该选哪个模型作为默认模型?
如果只选一个:
- 国内开发:Qwen-Plus ------ 价格便宜、速度够快、智能水平满足 80% 场景
- 国际开发:Gemini 2.5 Flash ------ 大窗口、速度快、价格中等
- 不差钱追求质量:Claude Sonnet 4.6 ------ 编程和多模态能力一流
附录:快速参考卡片
一句话总结各模型
Claude Opus 4.6 → 当前最强智能,但价格最贵,适合不差钱的场景
GPT-5.4 → 综合顶尖水平,代码执行是独有优势
Gemini 3 Pro → 多模态能力最强,Google 生态整合好
Qwen-Max → 国内最强智能,价格只有国际模型的 1/10
Qwen-Plus → 性价比之王,日常开发首选
Qwen-Flash → 免费!低预算项目/测试/原型开发
DeepSeek-V3 → 国际模型价格屠夫,开源可本地部署
DeepSeek-R1 → 推理能力强,适合数学/逻辑场景
汇率参考
1 USD ≈ 7.2 CNY(2026 年 4 月)
数据来源
- 阿里云百炼官方定价:help.aliyun.com/zh/model-studio/model-pricing
- OpenAI 定价:openai.com/api/pricing
- Anthropic 定价:docs.anthropic.com/en/docs/about-claude/models
- Google Gemini 定价:ai.google.dev/pricing
- DeepSeek 定价:platform.deepseek.com
- Benchmark 数据:Vellum AI / Siliconflow / llm-stats.com 等公开排行榜
声明:本文价格和性能数据截至 2026 年 4 月。各厂商可能随时调整定价,请以官方最新公告为准。Benchmark 分数来源于公开排行榜汇总,不同测试环境可能有差异。