随着大模型能力逐渐趋同,2026 年行业竞争已经从"参数大战"进入"成本大战"。
对于企业而言,决定 AI 落地规模的已经不再只是模型效果,而是:
- Token 成本
- 长上下文成本
- Cache 缓存机制
- Agent 调用成本
- 推理吞吐能力
本文汇总当前主流大模型官方 API 定价,涵盖国产与国际主流模型,并分析各家定价策略及适用场景。
一、DeepSeek 系列
官方定价:
https://platform.deepseek.com/api-docs/pricing
DeepSeek V4 Flash
| 项目 | 价格 |
|---|---|
| 百万Tokens输入(缓存命中) | 0.02元 |
| 百万Tokens输入(缓存未命中) | 1元 |
| 百万Tokens输出 | 2元 |
DeepSeek V4 Pro
| 项目 | 价格 |
|---|---|
| 百万Tokens输入(缓存命中) | 0.025元 |
| 百万Tokens输入(缓存未命中) | 3元 |
| 百万Tokens输出 | 6元 |
特点
- 国内性价比最高梯队
- Prompt Cache 成本极低
- Agent、多轮问答场景优势明显
二、字节豆包 Doubao Seed 2.0
官方定价:
https://www.volcengine.com/product/doubao/pricing
豆包采用上下文长度分档计费。
Doubao Seed 2.0 Mini
输入长度 0,32K
| 项目 | 价格 |
|---|---|
| 输入(未命中) | 0.2元 |
| 输入(命中) | 0.04元 |
| 输出 | 2元 |
输入长度 (32K,128K]
| 项目 | 价格 |
|---|---|
| 输入(未命中) | 0.4元 |
| 输入(命中) | 0.08元 |
| 输出 | 4元 |
输入长度 (128K,256K]
| 项目 | 价格 |
|---|---|
| 输入(未命中) | 0.8元 |
| 输入(命中) | 0.16元 |
| 输出 | 8元 |
Doubao Seed 2.0 Lite
| 上下文长度 | 输入未命中 | 输入命中 | 输出 |
|---|---|---|---|
| 0~32K | 0.6元 | 0.12元 | 3.6元 |
| 32K~128K | 0.9元 | 0.18元 | 5.4元 |
| 128K~256K | 1.8元 | 0.36元 | 10.8元 |
Doubao Seed 2.0 Pro
| 上下文长度 | 输入未命中 | 输入命中 | 输出 |
|---|---|---|---|
| 0~32K | 3.2元 | 0.64元 | 16元 |
| 32K~128K | 4.8元 | 0.96元 | 24元 |
| 128K~256K | 9.6元 | 1.92元 | 48元 |
Doubao Seed 2.0 Code
价格与 Pro 相同。
适用于:
- AI Coding
- Copilot
- Agent 开发
- 自动代码生成
三、阿里通义 Qwen 系列
官方定价:
https://bailian.console.aliyun.com/#/model-market/pricing
Qwen3.6 Flash
| 项目 | 价格 |
|---|---|
| 输入(0~256K) | 1.2元 |
| 输入(256K~1M) | 4.8元 |
| 输出 | 7.2元 |
Qwen3.7 Plus
| 项目 | 价格 |
|---|---|
| 输入(0~256K) | 2元 |
| 输入(256K~1M) | 6元 |
| 输出 | 8元 |
Qwen3.7 Max
| 项目 | 价格 |
|---|---|
| 输入 | 12元 |
| 输出 | 36元 |
特点
- 超长上下文能力突出
- 企业 Agent 场景应用广泛
- Max 系列定位高端推理模型
四、智谱 GLM 系列
官方定价:
https://open.bigmodel.cn/pricing
GLM-5.1
| 场景 | 输入未命中 | 输入命中 | 输出 |
|---|---|---|---|
| ≤32K | 6元 | 1.3元 | 24元 |
| >32K | 8元 | 2元 | 28元 |
GLM-5-Turbo
| 场景 | 输入未命中 | 输入命中 | 输出 |
|---|---|---|---|
| ≤32K | 5元 | 1.2元 | 22元 |
| >32K | 7元 | 1.8元 | 26元 |
GLM-4.5-Air
| 场景 | 输入未命中 | 输入命中 | 输出 |
|---|---|---|---|
| 短输出 | 0.8元 | 0.16元 | 2元 |
| 长输出 | 0.8元 | 0.16元 | 6元 |
| 长上下文 | 1.2元 | 0.24元 | 8元 |
GLM-4.7 Flash
| 项目 | 价格 |
|---|---|
| 输入 | 免费 |
| 输出 | 免费 |
属于当前开放体验模型。
五、MiniMax 系列
官方定价:
https://platform.minimaxi.com/document/PriceExplanation
MiniMax M3
| 项目 | 价格 |
|---|---|
| 输入未命中 | 2.1元 |
| 输入命中 | 0.42元 |
| 输出 | 8.4元 |
MiniMax M2.7
| 项目 | 价格 |
|---|---|
| 输入未命中 | 2.1元 |
| 输入命中 | 0.42元 |
| 输出 | 8.4元 |
特点
- 多模态能力突出
- 企业客户较多
- 定价位于中间梯队
六、Moonshot Kimi 系列
官方定价:
https://platform.moonshot.cn/docs/pricing/chat-completion-pricing
Kimi K2.6
| 项目 | 价格 |
|---|---|
| 输入命中 | 1.1元 |
| 输入未命中 | 6.5元 |
| 输出 | 27元 |
Kimi K2.5
| 项目 | 价格 |
|---|---|
| 输入命中 | 0.7元 |
| 输入未命中 | 4元 |
| 输出 | 21元 |
特点
- 长文本处理能力优秀
- 输出价格偏高
- 复杂知识处理场景表现突出
七、Anthropic Claude 系列
官方定价:
https://platform.claude.com/docs/about-claude/pricing
Claude Opus 4.8
| 项目 | 价格 |
|---|---|
| 输入未命中 | $5 |
| Cache Write(5分钟) | $6.25 |
| Cache Write(1小时) | $10 |
| Cache Hit | $0.5 |
| 输出 | $25 |
Claude Sonnet 4.6
| 项目 | 价格 |
|---|---|
| 输入未命中 | $3 |
| Cache Write(5分钟) | $3.75 |
| Cache Write(1小时) | $6 |
| Cache Hit | $0.3 |
| 输出 | $15 |
Claude Haiku 4.5
| 项目 | 价格 |
|---|---|
| 输入未命中 | $1 |
| Cache Write(5分钟) | $1.25 |
| Cache Write(1小时) | $2 |
| Cache Hit | $0.1 |
| 输出 | $5 |
Claude 的特点
Claude 是目前 Prompt Cache 商业化最成熟的平台:
- Cache Write
- Cache Read
- Cache 生命周期
均单独计费。
八、Google Gemini 系列
官方定价:
https://ai.google.dev/gemini-api/docs/pricing
Gemini 3.1 Pro
≤200K Context
| 项目 | 价格 |
|---|---|
| 输入未命中 | $1.25 |
| 输入命中 | $0.125 |
| 输出 | $10 |
>200K Context
| 项目 | 价格 |
|---|---|
| 输入未命中 | $2.5 |
| 输入命中 | $0.25 |
| 输出 | $15 |
Gemini 3.5 Flash
| 项目 | 价格 |
|---|---|
| 输入未命中 | $0.3 |
| 输入命中 | $0.03 |
| 输出 | $2.5 |
缓存存储:
$1 / 百万 Tokens / 小时
Gemini 3.1 Flash-Lite
| 项目 | 价格 |
|---|---|
| 输入 | $0.25 |
| 输出 | $1.5 |
九、OpenAI GPT 系列
官方定价:
https://openai.com/api/pricing
GPT-5.5
| 项目 | 价格 |
|---|---|
| 输入未命中 | $5 |
| 输入命中 | $0.5 |
| 输出 | $30 |
GPT-5.5 Pro
| 项目 | 价格 |
|---|---|
| 输入 | $30 |
| 输出 | $180 |
特点
GPT-5.5 Pro 已进入顶级推理模型价格区间:
- 输入成本约 GPT-5.5 的 6 倍
- 输出成本约 GPT-5.5 的 6 倍
- 面向复杂 Agent 与深度推理场景
十、价格梯队总结
第一梯队:极致低成本
- GLM-4.7 Flash
- Doubao Mini
- Gemini Flash-Lite
- Gemini Flash
- DeepSeek V4 Flash
适合:
- AI 助手
- 企业客服
- RAG
- 高并发场景
第二梯队:企业主力模型
- Qwen3.6 Flash
- MiniMax M3
- GLM-4.5-Air
- Doubao Lite
适合:
- 企业知识库
- 智能办公
- Agent Workflow
第三梯队:高质量推理
- Claude Sonnet 4.6
- Qwen3.7 Max
- Kimi K2.6
- GPT-5.5
适合:
- Coding
- Agent
- 复杂推理
- 企业生产环境
第四梯队:旗舰模型
- Claude Opus 4.8
- GPT-5.5 Pro
适合:
- 高价值决策
- 复杂科研
- 多 Agent 协同推理
结语
2026 年的大模型市场已经进入"能力趋同、价格分化"的阶段。
从价格角度看:
- 国产模型最低已经进入"每百万 Token 几毛钱"时代;
- 国际旗舰模型仍维持数十倍价格差距;
- Prompt Cache 正成为新的降本核心能力。
对于企业级 AI 平台而言,未来真正的竞争力已经不只是接入更多模型,而是通过:
- Model Routing(模型路由)
- Prompt Cache(提示缓存)
- Semantic Cache(语义缓存)
- Context Compression(上下文压缩)
- Token Optimization(Token 优化)
构建系统级降本能力。
在实际生产环境中,一个优秀的 AI 网关平台所带来的成本优化收益,往往远大于单纯切换模型本身。