2026 大模型 API 价格一览:GPT-5/Claude 4.6/Gemini 3/DeepSeek V3 费率实测对比

上个月我接了个私活,做一个多模型对话聚合的小产品。需求很简单:用户选模型,后端调 API,返回结果。但真到了选模型、算成本这步,我直接懵了------各家定价体系完全不一样,有的按 token 计费,有的按字符,有的输入输出价格差好几倍,还有的藏着隐性费用。

我花了整整两天,把 2026 年主流大模型 API 的价格全扒了一遍,做了张表格贴在飞书文档里。后来想想,这事儿应该不止我一个人头疼,干脆整理出来发一篇。

如果你正在为项目选模型、控成本,下面这张表可以直接收藏当参考。

价格对比表(2026 年 3 月实测)

先上最核心的表格,价格单位统一换算成美元 / 百万 token,方便横向对比:

模型 输入价格($/1M tokens) 输出价格($/1M tokens) 免费额度 付款方式 备注
GPT-5(OpenAI) $5.00 $15.00 Visa/Mastercard API 需绑外币信用卡
Claude Opus 4.6(Anthropic) $15.00 $75.00 Visa/Mastercard Opus 定位旗舰,贵但强
Claude Sonnet 4.6(Anthropic) $3.00 $15.00 Visa/Mastercard 性价比首选
Gemini 3 Pro(Google) $3.50 $10.50 有免费层 Visa/Google Billing 免费层有 QPM 限制
DeepSeek V3(深度求索) ¥2.00(≈$0.28) ¥8.00(≈$1.10) 支付宝/微信 价格屠夫,支持人民币
Qwen 3(阿里云) ¥2.00(≈$0.28) ¥6.00(≈$0.83) 有免费额度 支付宝 通义百炼平台
GLM-5(智谱) ¥5.00(≈$0.69) ¥5.00(≈$0.69) 支付宝/微信 刚开源,API 价格亲民
Kimi K2.5(月之暗面) ¥8.00(≈$1.10) ¥8.00(≈$1.10) 支付宝/微信 长上下文场景有优势
豆包 2.0(字节) ¥0.80(≈$0.11) ¥2.00(≈$0.28) 支付宝 火山引擎,目前最便宜之一

价格数据采集于 2026 年 3 月,各家可能随时调整,以官网为准。汇率按 1 USD ≈ 7.2 CNY 换算。

看完这张表,几个结论很明显:

  • 论绝对便宜,豆包 2.0 和 DeepSeek V3 断层领先,输入价格不到 GPT-5 的 1/15
  • Claude Opus 4.6 是真的贵,输出 $75/1M tokens,适合不差钱追求极致效果的场景
  • 人民币直接付款的选择其实已经很多:DeepSeek、Qwen、GLM、Kimi、豆包都支持支付宝
  • 海外模型(GPT-5/Claude/Gemini)想用人民币付费,要么走云厂商代理(Azure/阿里云百炼),要么用聚合 API 平台

隐藏费用和坑点

光看单价不够,我在实际接入过程中踩了好几个价格相关的坑。

1. 输入输出价格差异巨大

很多人只看输入价格觉得便宜,结果一跑起来发现输出才是大头。比如 Claude Opus 4.6,输入 15 看着还行,输出直接 75------如果你的场景是让 AI 写长文、生成代码,输出 token 量远大于输入,账单会非常吓人。

2. 上下文长度影响实际成本

Kimi K2.5 主打长上下文,128k 甚至更长。但上下文越长,每次请求的输入 token 就越多。我测过一个 RAG 场景,每次塞 50k token 的上下文,一天跑下来光输入费用就花了快 200 块。

3. 海外 API 付款门槛

GPT-5 和 Claude 的官方 API 都需要外币信用卡,这对很多独立开发者来说是第一道坎。申请海外信用卡、充值虚拟卡都有额外的手续费和汇率损失,实际成本比标价高 3%-5%。

4. 免费额度的限制

几家给了免费额度的(DeepSeek、Qwen、GLM、豆包),免费层的 QPM(每分钟请求数)和 TPM(每分钟 token 数)限制都比较严。拿来学习调试没问题,真跑业务基本不够用。

不同预算和场景怎么选

我把常见场景整理了一下,直接对号入座:
月预算<100元
月预算100-500元
不差钱追求效果
代码生成
中文对话/客服
长文档分析
是,但想人民币付
否,用人民币直付模型
你的需求是什么?
预算敏感?
豆包2.0 / DeepSeek V3
场景偏好?
GPT-5 / Claude Opus 4.6
DeepSeek V3 / Claude Sonnet 4.6
Qwen 3 / GLM-5
Kimi K2.5 / Gemini 3
需要用海外模型?
聚合API平台
直接对接各家API

几条选型建议:

预算极有限(个人项目/学习):豆包 2.0 或 DeepSeek V3,人民币直付,价格低到离谱,效果也不差。

中等预算(小团队/私活):日常用 DeepSeek V3 或 Qwen 3 扛量,关键环节(比如复杂推理、代码审查)切到 Claude Sonnet 4.6 或 GPT-5。

追求效果不差钱:Claude Opus 4.6 在复杂推理和代码场景确实强,但 Sonnet 4.6 的性价比高太多,我个人 90% 场景用 Sonnet 就够了。

我的省钱方案

说说我最后怎么落地的。那个多模型聚合产品,需要同时调用 GPT-5、Claude Sonnet 4.6、DeepSeek V3 这几个模型。如果分别去各家注册账号、管理 API Key、处理不同的鉴权协议,光维护成本就受不了------更别说 GPT-5 和 Claude 还需要外币信用卡。

最后选了个省事的路子:用聚合 API 平台统一接入,只维护一个 API Key。

我目前在用的是 ofox.ai,一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3 等 50+ 模型,支持支付宝和微信付款,按量计费。对我来说最实际的好处有两个:不用折腾外币信用卡,人民币直接充值;切换模型只需要改一个 model 参数,base_url 和 Key 都不用动。

代码改动极小,因为兼容 OpenAI 协议:

python 复制代码
from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

# 用 GPT-5
resp1 = client.chat.completions.create(
 model="gpt-5",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

# 切到 Claude Sonnet 4.6,只改 model 参数
resp2 = client.chat.completions.create(
 model="claude-sonnet-4.6",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

# 切到 DeepSeek V3
resp3 = client.chat.completions.create(
 model="deepseek-v3",
 messages=[{"role": "user", "content": "写一个快排算法"}]
)

这样还可以在代码里做个简单的 fallback 逻辑:某个模型超时就自动切到另一个,用户体验不受影响。

省钱的几个实操技巧

1. 输入端做压缩

把超长的 system prompt 精简到必要信息,用结构化格式(JSON/Markdown)代替自然语言描述,能省 30%-50% 的输入 token。

2. 分级调用

不是所有请求都需要最强模型。我的做法:简单问答走豆包 2.0(最便宜),需要推理的走 DeepSeek V3(便宜且强),最复杂的走 Claude Sonnet 4.6。按我的业务分布,综合成本降了大概 60%。

3. 缓存相同请求

对话场景里很多问题是重复的,做一层语义缓存(用 embedding 匹配相似问题),命中缓存就不调 API,这招能省不少钱。

4. 关注各家的 batch API

OpenAI 和 Anthropic 都有 Batch API,用延迟换价格,通常能打 5 折。如果你的场景不要求实时响应(批量翻译、批量摘要之类的),强烈建议用 batch 模式。

小结

2026 年大模型 API 的价格战已经打得很厉害了,豆包和 DeepSeek 把价格压到了一个匪夷所思的水平。对独立开发者来说,现在做 AI 产品的成本是真的低。

选模型别只看价格,也别只看跑分。先用免费额度把几个候选模型都跑一遍你的真实场景,看看实际效果和延迟,然后按量级算一下月成本,再做决定。

如果你也在算这笔账,希望这张表能帮你省点时间。有什么价格变动或者我写错的地方,欢迎评论区指正。

相关推荐
柯儿的天空2 小时前
【OpenClaw 全面解析:从零到精通】第 021 篇:Claw 家族全景——从桌面级到边缘部署的轻量级智能体变体深度解析
gpt·ai作画·自动化·aigc·ai编程·ai写作·agi
belldeep2 小时前
AI: 介绍 微软 BitNet 下载、安装、使用说明
人工智能·microsoft·ai·bitnet
Hello.Reader2 小时前
BERT 和 GPT 为什么结构不同?——Encoder 与 Decoder 图解
人工智能·gpt·bert
xiaoxue..2 小时前
大模型全栈技术图谱:LLM → Token → Context → Prompt → Tool → MCP → Agent → Skill
人工智能·ai·大模型
-许平安-2 小时前
MCP项目笔记四(Transport)
开发语言·c++·笔记·ai·mcp
倾心琴心2 小时前
【agent辅助热仿真学习】实践1 hotspot 热仿真代码流程学习
ai·agent·芯片·热仿真·求解
猿小猴子2 小时前
主流 AI IDE 之一的 华为云码道「CodeArts」 介绍
ide·人工智能·ai·华为云
knqiufan10 小时前
PingCraft:从需求文档到可追踪工作项的 Agent 实践之路
ai·llm·agent·pingcode
xixixi7777716 小时前
2026 年 03 月 20 日 AI+通信+安全行业日报(来更新啦)
大数据·人工智能·安全·ai·大模型·通信