2026 大模型 API 价格一览：GPT-5/Claude 4.6/Gemini 3/DeepSeek V3 费率实测对比

上个月我接了个私活，做一个多模型对话聚合的小产品。需求很简单：用户选模型，后端调 API，返回结果。但真到了选模型、算成本这步，我直接懵了------各家定价体系完全不一样，有的按 token 计费，有的按字符，有的输入输出价格差好几倍，还有的藏着隐性费用。

我花了整整两天，把 2026 年主流大模型 API 的价格全扒了一遍，做了张表格贴在飞书文档里。后来想想，这事儿应该不止我一个人头疼，干脆整理出来发一篇。

如果你正在为项目选模型、控成本，下面这张表可以直接收藏当参考。

价格对比表（2026 年 3 月实测）

先上最核心的表格，价格单位统一换算成美元 / 百万 token，方便横向对比：

模型	输入价格（$/1M tokens）	输出价格（$/1M tokens）	免费额度	付款方式	备注
GPT-5（OpenAI）	$5.00	$15.00	无	Visa/Mastercard	API 需绑外币信用卡
Claude Opus 4.6（Anthropic）	$15.00	$75.00	无	Visa/Mastercard	Opus 定位旗舰，贵但强
Claude Sonnet 4.6（Anthropic）	$3.00	$15.00	无	Visa/Mastercard	性价比首选
Gemini 3 Pro（Google）	$3.50	$10.50	有免费层	Visa/Google Billing	免费层有 QPM 限制
DeepSeek V3（深度求索）	¥2.00（≈$0.28）	¥8.00（≈$1.10）	有	支付宝/微信	价格屠夫，支持人民币
Qwen 3（阿里云）	¥2.00（≈$0.28）	¥6.00（≈$0.83）	有免费额度	支付宝	通义百炼平台
GLM-5（智谱）	¥5.00（≈$0.69）	¥5.00（≈$0.69）	有	支付宝/微信	刚开源，API 价格亲民
Kimi K2.5（月之暗面）	¥8.00（≈$1.10）	¥8.00（≈$1.10）	有	支付宝/微信	长上下文场景有优势
豆包 2.0（字节）	¥0.80（≈$0.11）	¥2.00（≈$0.28）	有	支付宝	火山引擎，目前最便宜之一

价格数据采集于 2026 年 3 月，各家可能随时调整，以官网为准。汇率按 1 USD ≈ 7.2 CNY 换算。

看完这张表，几个结论很明显：

论绝对便宜，豆包 2.0 和 DeepSeek V3 断层领先，输入价格不到 GPT-5 的 1/15
Claude Opus 4.6 是真的贵，输出 $75/1M tokens，适合不差钱追求极致效果的场景
人民币直接付款的选择其实已经很多：DeepSeek、Qwen、GLM、Kimi、豆包都支持支付宝
海外模型（GPT-5/Claude/Gemini）想用人民币付费，要么走云厂商代理（Azure/阿里云百炼），要么用聚合 API 平台

隐藏费用和坑点

光看单价不够，我在实际接入过程中踩了好几个价格相关的坑。

1. 输入输出价格差异巨大

很多人只看输入价格觉得便宜，结果一跑起来发现输出才是大头。比如 Claude Opus 4.6，输入 $15 看着还行，输出直接$ 75------如果你的场景是让 AI 写长文、生成代码，输出 token 量远大于输入，账单会非常吓人。

2. 上下文长度影响实际成本

Kimi K2.5 主打长上下文，128k 甚至更长。但上下文越长，每次请求的输入 token 就越多。我测过一个 RAG 场景，每次塞 50k token 的上下文，一天跑下来光输入费用就花了快 200 块。

3. 海外 API 付款门槛

GPT-5 和 Claude 的官方 API 都需要外币信用卡，这对很多独立开发者来说是第一道坎。申请海外信用卡、充值虚拟卡都有额外的手续费和汇率损失，实际成本比标价高 3%-5%。

4. 免费额度的限制

几家给了免费额度的（DeepSeek、Qwen、GLM、豆包），免费层的 QPM（每分钟请求数）和 TPM（每分钟 token 数）限制都比较严。拿来学习调试没问题，真跑业务基本不够用。

不同预算和场景怎么选

我把常见场景整理了一下，直接对号入座：
月预算<100元
月预算100-500元
不差钱追求效果
代码生成
中文对话/客服
长文档分析
是，但想人民币付
否，用人民币直付模型
你的需求是什么？
预算敏感？
豆包2.0 / DeepSeek V3
场景偏好？
GPT-5 / Claude Opus 4.6
DeepSeek V3 / Claude Sonnet 4.6
Qwen 3 / GLM-5
Kimi K2.5 / Gemini 3
需要用海外模型？
聚合API平台
直接对接各家API

几条选型建议：

预算极有限（个人项目/学习）：豆包 2.0 或 DeepSeek V3，人民币直付，价格低到离谱，效果也不差。

中等预算（小团队/私活）：日常用 DeepSeek V3 或 Qwen 3 扛量，关键环节（比如复杂推理、代码审查）切到 Claude Sonnet 4.6 或 GPT-5。

追求效果不差钱：Claude Opus 4.6 在复杂推理和代码场景确实强，但 Sonnet 4.6 的性价比高太多，我个人 90% 场景用 Sonnet 就够了。

我的省钱方案

说说我最后怎么落地的。那个多模型聚合产品，需要同时调用 GPT-5、Claude Sonnet 4.6、DeepSeek V3 这几个模型。如果分别去各家注册账号、管理 API Key、处理不同的鉴权协议，光维护成本就受不了------更别说 GPT-5 和 Claude 还需要外币信用卡。

最后选了个省事的路子：用聚合 API 平台统一接入，只维护一个 API Key。

我目前在用的是 ofox.ai，一个 AI 模型聚合平台，一个 API Key 可以调用 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3 等 50+ 模型，支持支付宝和微信付款，按量计费。对我来说最实际的好处有两个：不用折腾外币信用卡，人民币直接充值；切换模型只需要改一个 model 参数，base_url 和 Key 都不用动。

代码改动极小，因为兼容 OpenAI 协议：

python 复制代码

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

# 用 GPT-5
resp1 = client.chat.completions.create(
 model="gpt-5",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

# 切到 Claude Sonnet 4.6，只改 model 参数
resp2 = client.chat.completions.create(
 model="claude-sonnet-4.6",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

# 切到 DeepSeek V3
resp3 = client.chat.completions.create(
 model="deepseek-v3",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

这样还可以在代码里做个简单的 fallback 逻辑：某个模型超时就自动切到另一个，用户体验不受影响。

省钱的几个实操技巧

1. 输入端做压缩

把超长的 system prompt 精简到必要信息，用结构化格式（JSON/Markdown）代替自然语言描述，能省 30%-50% 的输入 token。

2. 分级调用

不是所有请求都需要最强模型。我的做法：简单问答走豆包 2.0（最便宜），需要推理的走 DeepSeek V3（便宜且强），最复杂的走 Claude Sonnet 4.6。按我的业务分布，综合成本降了大概 60%。

3. 缓存相同请求

对话场景里很多问题是重复的，做一层语义缓存（用 embedding 匹配相似问题），命中缓存就不调 API，这招能省不少钱。

4. 关注各家的 batch API

OpenAI 和 Anthropic 都有 Batch API，用延迟换价格，通常能打 5 折。如果你的场景不要求实时响应（批量翻译、批量摘要之类的），强烈建议用 batch 模式。

小结

2026 年大模型 API 的价格战已经打得很厉害了，豆包和 DeepSeek 把价格压到了一个匪夷所思的水平。对独立开发者来说，现在做 AI 产品的成本是真的低。

选模型别只看价格，也别只看跑分。先用免费额度把几个候选模型都跑一遍你的真实场景，看看实际效果和延迟，然后按量级算一下月成本，再做决定。

如果你也在算这笔账，希望这张表能帮你省点时间。有什么价格变动或者我写错的地方，欢迎评论区指正。