2026 大模型 API 定价全景图：DeepSeek、豆包、Qwen、GLM、MiniMax、Kimi、Claude、Gemini、GPT 谁最便宜？

随着大模型能力逐渐趋同，2026 年行业竞争已经从"参数大战"进入"成本大战"。

对于企业而言，决定 AI 落地规模的已经不再只是模型效果，而是：

Token 成本
长上下文成本
Cache 缓存机制
Agent 调用成本
推理吞吐能力

本文汇总当前主流大模型官方 API 定价，涵盖国产与国际主流模型，并分析各家定价策略及适用场景。

一、DeepSeek 系列

官方定价：

https://platform.deepseek.com/api-docs/pricing

DeepSeek V4 Flash

项目	价格
百万Tokens输入（缓存命中）	0.02元
百万Tokens输入（缓存未命中）	1元
百万Tokens输出	2元

DeepSeek V4 Pro

项目	价格
百万Tokens输入（缓存命中）	0.025元
百万Tokens输入（缓存未命中）	3元
百万Tokens输出	6元

特点

国内性价比最高梯队
Prompt Cache 成本极低
Agent、多轮问答场景优势明显

二、字节豆包 Doubao Seed 2.0

官方定价：

https://www.volcengine.com/product/doubao/pricing

豆包采用上下文长度分档计费。

Doubao Seed 2.0 Mini

输入长度 $0,32K$

项目	价格
输入（未命中）	0.2元
输入（命中）	0.04元
输出	2元

输入长度 (32K,128K]

项目	价格
输入（未命中）	0.4元
输入（命中）	0.08元
输出	4元

输入长度 (128K,256K]

项目	价格
输入（未命中）	0.8元
输入（命中）	0.16元
输出	8元

Doubao Seed 2.0 Lite

上下文长度	输入未命中	输入命中	输出
0~32K	0.6元	0.12元	3.6元
32K~128K	0.9元	0.18元	5.4元
128K~256K	1.8元	0.36元	10.8元

Doubao Seed 2.0 Pro

上下文长度	输入未命中	输入命中	输出
0~32K	3.2元	0.64元	16元
32K~128K	4.8元	0.96元	24元
128K~256K	9.6元	1.92元	48元

Doubao Seed 2.0 Code

价格与 Pro 相同。

适用于：

AI Coding
Copilot
Agent 开发
自动代码生成

三、阿里通义 Qwen 系列

官方定价：

https://bailian.console.aliyun.com/#/model-market/pricing

Qwen3.6 Flash

项目	价格
输入（0~256K）	1.2元
输入（256K~1M）	4.8元
输出	7.2元

Qwen3.7 Plus

项目	价格
输入（0~256K）	2元
输入（256K~1M）	6元
输出	8元

Qwen3.7 Max

项目	价格
输入	12元
输出	36元

特点

超长上下文能力突出
企业 Agent 场景应用广泛
Max 系列定位高端推理模型

四、智谱 GLM 系列

官方定价：

https://open.bigmodel.cn/pricing

GLM-5.1

场景	输入未命中	输入命中	输出
≤32K	6元	1.3元	24元
>32K	8元	2元	28元

GLM-5-Turbo

场景	输入未命中	输入命中	输出
≤32K	5元	1.2元	22元
>32K	7元	1.8元	26元

GLM-4.5-Air

场景	输入未命中	输入命中	输出
短输出	0.8元	0.16元	2元
长输出	0.8元	0.16元	6元
长上下文	1.2元	0.24元	8元

GLM-4.7 Flash

项目	价格
输入	免费
输出	免费

属于当前开放体验模型。

五、MiniMax 系列

官方定价：

https://platform.minimaxi.com/document/PriceExplanation

MiniMax M3

项目	价格
输入未命中	2.1元
输入命中	0.42元
输出	8.4元

MiniMax M2.7

项目	价格
输入未命中	2.1元
输入命中	0.42元
输出	8.4元

特点

多模态能力突出
企业客户较多
定价位于中间梯队

六、Moonshot Kimi 系列

官方定价：

https://platform.moonshot.cn/docs/pricing/chat-completion-pricing

Kimi K2.6

项目	价格
输入命中	1.1元
输入未命中	6.5元
输出	27元

Kimi K2.5

项目	价格
输入命中	0.7元
输入未命中	4元
输出	21元

特点

长文本处理能力优秀
输出价格偏高
复杂知识处理场景表现突出

七、Anthropic Claude 系列

官方定价：

https://platform.claude.com/docs/about-claude/pricing

Claude Opus 4.8

项目	价格
输入未命中	$5
Cache Write（5分钟）	$6.25
Cache Write（1小时）	$10
Cache Hit	$0.5
输出	$25

Claude Sonnet 4.6

项目	价格
输入未命中	$3
Cache Write（5分钟）	$3.75
Cache Write（1小时）	$6
Cache Hit	$0.3
输出	$15

Claude Haiku 4.5

项目	价格
输入未命中	$1
Cache Write（5分钟）	$1.25
Cache Write（1小时）	$2
Cache Hit	$0.1
输出	$5

Claude 的特点

Claude 是目前 Prompt Cache 商业化最成熟的平台：

Cache Write
Cache Read
Cache 生命周期

均单独计费。

八、Google Gemini 系列

官方定价：

https://ai.google.dev/gemini-api/docs/pricing

Gemini 3.1 Pro

≤200K Context

项目	价格
输入未命中	$1.25
输入命中	$0.125
输出	$10

>200K Context

项目	价格
输入未命中	$2.5
输入命中	$0.25
输出	$15

Gemini 3.5 Flash

项目	价格
输入未命中	$0.3
输入命中	$0.03
输出	$2.5

缓存存储：

$1 / 百万 Tokens / 小时

Gemini 3.1 Flash-Lite

项目	价格
输入	$0.25
输出	$1.5

九、OpenAI GPT 系列

官方定价：

https://openai.com/api/pricing

GPT-5.5

项目	价格
输入未命中	$5
输入命中	$0.5
输出	$30

GPT-5.5 Pro

项目	价格
输入	$30
输出	$180

特点

GPT-5.5 Pro 已进入顶级推理模型价格区间：

输入成本约 GPT-5.5 的 6 倍
输出成本约 GPT-5.5 的 6 倍
面向复杂 Agent 与深度推理场景

十、价格梯队总结

第一梯队：极致低成本

GLM-4.7 Flash
Doubao Mini
Gemini Flash-Lite
Gemini Flash
DeepSeek V4 Flash

适合：

AI 助手
企业客服
RAG
高并发场景

第二梯队：企业主力模型

Qwen3.6 Flash
MiniMax M3
GLM-4.5-Air
Doubao Lite

适合：

企业知识库
智能办公
Agent Workflow

第三梯队：高质量推理

Claude Sonnet 4.6
Qwen3.7 Max
Kimi K2.6
GPT-5.5

适合：

Coding
Agent
复杂推理
企业生产环境

第四梯队：旗舰模型

Claude Opus 4.8
GPT-5.5 Pro

适合：

高价值决策
复杂科研
多 Agent 协同推理

结语

2026 年的大模型市场已经进入"能力趋同、价格分化"的阶段。

从价格角度看：

国产模型最低已经进入"每百万 Token 几毛钱"时代；
国际旗舰模型仍维持数十倍价格差距；
Prompt Cache 正成为新的降本核心能力。

对于企业级 AI 平台而言，未来真正的竞争力已经不只是接入更多模型，而是通过：

Model Routing（模型路由）
Prompt Cache（提示缓存）
Semantic Cache（语义缓存）
Context Compression（上下文压缩）
Token Optimization（Token 优化）

构建系统级降本能力。

在实际生产环境中，一个优秀的 AI 网关平台所带来的成本优化收益，往往远大于单纯切换模型本身。

2026 大模型 API 定价全景图：DeepSeek、豆包、Qwen、GLM、MiniMax、Kimi、Claude、Gemini、GPT 谁最便宜？

一、DeepSeek 系列

DeepSeek V4 Flash

DeepSeek V4 Pro

特点

二、字节豆包 Doubao Seed 2.0

Doubao Seed 2.0 Mini

输入长度 0,32K

输入长度 (32K,128K]

输入长度 (128K,256K]

Doubao Seed 2.0 Lite

Doubao Seed 2.0 Pro

Doubao Seed 2.0 Code

三、阿里通义 Qwen 系列

Qwen3.6 Flash

Qwen3.7 Plus

Qwen3.7 Max

特点

四、智谱 GLM 系列

GLM-5.1

GLM-5-Turbo

GLM-4.5-Air

GLM-4.7 Flash

五、MiniMax 系列

MiniMax M3

MiniMax M2.7

特点

六、Moonshot Kimi 系列

Kimi K2.6

Kimi K2.5

特点

七、Anthropic Claude 系列

Claude Opus 4.8

Claude Sonnet 4.6

Claude Haiku 4.5

Claude 的特点

八、Google Gemini 系列

Gemini 3.1 Pro

≤200K Context

>200K Context

Gemini 3.5 Flash

Gemini 3.1 Flash-Lite

九、OpenAI GPT 系列

GPT-5.5

GPT-5.5 Pro

特点

十、价格梯队总结

第一梯队：极致低成本

第二梯队：企业主力模型

第三梯队：高质量推理

第四梯队：旗舰模型

结语

输入长度 $0,32K$