一、国内平台(无需科学上网)
1. 智谱AI(GLM系列)⭐⭐⭐⭐⭐ 【最推荐】
免费额度:
- 新用户赠送 2000万 Token,永久有效
- GLM-4-Flash:完全免费,128K上下文,30并发
- GLM-4.7-Flash:完全免费,200K上下文,编程能力SOTA
代表模型:
| 模型 | 免费状态 | 上下文 | 特点 |
|---|---|---|---|
| GLM-4-Flash | ✅ 完全免费 | 128K | 通用能力强,中文优化 |
| GLM-4.7-Flash | ✅ 完全免费 | 200K | 编程能力优秀(SWE-Bench 59.2%) |
| GLM-5 | ❌ 付费 | 128K | 旗舰级能力 |
优点:
- 永久免费额度,用完还有
- 模型能力国内第一梯队
- OpenAI兼容格式,接入简单
缺点:
- 免费版有30并发限制
适用场景:中文内容处理、代码生成、Agent工作流
2. 硅基流动(SiliconFlow)⭐⭐⭐⭐
免费额度:
- 新用户赠送 2000万 Token(价值约14元)
- 9B参数以下模型 永久免费
代表模型:
- Qwen2.5-7B-Instruct:永久免费
- DeepSeek-V2.5:高速性价比
- GLM-4-Flash:免费调用
优点:
- 国内服务器,延迟低(通常<100ms)
- 支持微信/支付宝充值
- 文档和客服中文友好
适用场景:国内访问、中文任务、高频API调用
3. 百度智能云千帆(文心一言)⭐⭐⭐⭐
官网:https://console.bce.baidu.com/qianfan/
免费额度:
| 模型 | 免费额度 | 有效期 | QPS |
|---|---|---|---|
| ERNIE-3.5-8K | ✅ 永久免费,不限量 | 永久 | 50 |
| ERNIE-4.0-8K | 100万Token/月 | 新用户 | 5 |
| ERNIE-Speed-8K | ✅ 永久免费 | 永久 | - |
优点:
- ERNIE-Speed永久免费且QPS=50
- 百度品牌背书,稳定可靠
- 支持OpenAI SDK,一行代码迁移
适用场景:国内合规场景、百度生态集成
4. 阿里云百炼(DashScope)⭐⭐⭐⭐
官网:https://dashscope.aliyun.com/
免费额度:
- 注册即送 1000万永久免费Token
- 每月赠送额外免费额度
支持模型:
- 通义千问全系列(Qwen)
- DeepSeek全系、Kimi系列、MiniMax系列、GLM系列
优点:
- 模型种类最全
- 阿里云生态集成方便
- 每个模型独立免费额度
缺点:
- 需要绑定阿里云账号
5. 火山引擎(豆包/Doubao)⭐⭐⭐
免费额度:
- 安心体验模式:每模型50万Token(一次性)
- 协作奖励计划:每天200万Token(按天重置)
代表模型:
- Doubao-lite-32k:免费版可用
- Doubao-pro-32k:付费
优点:
- 每天200万Token额度较大
- 价格竞争力强
6. Kimi开放平台(月之暗面)⭐⭐⭐
官网:https://platform.moonshot.cn/
免费额度:
- 新用户赠送 15元代金券(永久有效)
代表模型:
- kimi-k2.5:¥4.35/百万Token
- kimi-k2:¥4.35/百万Token
优点:
- 256K超长上下文
- 支持图片理解
7. 腾讯云混元⭐⭐⭐
官网:https://cloud.tencent.com/product/hunyuan
免费额度:
- 通用资源包 100万Token(有效期1年)
- Embedding额外 100万Token
优点:
- 有效期1年(相对较长)
- 腾讯生态集成
8. 科大讯飞星火⭐⭐
免费额度:
- spark-lite:Token总量不限,QPS=2
优点:
- 中文理解强,响应快
适用场景:轻量级对话、教育、办公自动化
二、国外平台(需科学上网)
1. Google Gemini API ⭐⭐⭐⭐⭐
免费额度:
| 模型 | RPM | TPM | RPD |
|---|---|---|---|
| gemini-2.5-flash | 5 | 250K | 20 |
| gemini-2.5-flash-lite | 10 | 250K | 20 |
| gemini-3-flash | 5 | 250K | 20 |
| gemma-3-12b | 30 | 15K | 14.4K |
优点:
- 多模态能力强
- 推理能力优秀
- 文档理解出色
2. Groq ⭐⭐⭐⭐
免费额度:
- RPM = 30(每分钟请求数)
- RPD = 14,400(每日请求数)
- TPD = 500K(每日Token数)
支持模型:
- Llama-3.1-8B-Instant
- Llama-3.3-70B-Versatile
- Kimi-K2-Instruct
- Qwen3-32B
特点:超低延迟(<100ms),基于LPU加速
适用场景:高性能实时推理、演示系统
3. Cloudflare Workers AI ⭐⭐⭐⭐
官网:https://developers.cloudflare.com/workers-ai/
免费额度:
- 每日10,000次请求(月30万次)
支持模型:
- @cf/meta/llama-3-8b-instruct
- @cf/baai/bge-large-en
优点:
- 边缘计算,延迟低
- 免费额度高
- 适合Web应用
4. OpenRouter ⭐⭐⭐
免费额度:
- 每日 50个请求(所有免费模型总计)
- 付费用户(累计购买≥$10):每日1000个请求
特点 :模型聚合商,接口统一,查找名称后缀带free的模型
5. GitHub Models ⭐⭐⭐
官网:https://github.com/marketplace/models
免费可用模型:
- gpt-4.1、gpt-4o、gpt-4.1-mini
- DeepSeek-V3-0324
- Llama-3.3-70B-Instruct
6. Hugging Face Inference API ⭐⭐
免费额度:免费层有限
支持模型:
- BLOOM-176B(开源)
- 众多开源模型
适用场景:研究、实验和学术用途
三、平台对比总览
3.1 免费额度对比
| 平台 | 免费额度 | 有效期 | 并发限制 |
|---|---|---|---|
| 智谱AI | 2000万Token | 永久 | 30 QPS |
| 硅基流动 | 2000万Token + 小模型永久免费 | 永久 | - |
| 百度千帆 | ERNIE-3.5-8K永久免费 | 永久 | 50 QPS |
| 阿里云百炼 | 1000万永久Token | 永久 | 2 QPS |
| 火山引擎 | 每天200万Token | 按天重置 | - |
| Google Gemini | 多种模型免费 | 永久 | RPM限制 |
| Groq | 14,400次/天 | 永久 | 30 RPM |
| Cloudflare | 10,000次/天 | 永久 | - |
3.2 场景匹配建议
| 场景 | 推荐平台 | 原因 |
|---|---|---|
| 中文内容处理 | 智谱AI、硅基流动 | 中文优化好,免费额度充足 |
| 高性能实时推理 | Groq | 延迟<100ms |
| 多模态任务 | Google Gemini | 多模态能力强 |
| 企业级应用 | 百度千帆、阿里云百炼 | 稳定可靠,合规 |
| 快速原型开发 | Cloudflare | 免费额度高,边缘部署 |
| 长上下文处理 | Kimi(256K)、GLM-4.7(200K) | 超长上下文支持 |
四、快速选择决策树
用户需求
│
├─→ 国内访问?
│ │
│ ├─→ 是 → 智谱AI / 硅基流动(最推荐)
│ │ └─→ 需要高并发?→ 百度千帆(QPS=50)
│ │
│ └─→ 否 → 国外平台
│ │
│ ├─→ 需要多模态?→ Google Gemini
│ │
│ └─→ 需要低延迟?→ Groq
│
└─→ 预算限制?
│
├─→ 零预算 → 智谱AI(GLM-4-Flash永久免费)
│
└─→ 少量预算 → DeepSeek(性价比最高)
五、接入示例代码
5.1 Python - OpenAI兼容接口
python
from openai import OpenAI
# 智谱AI
client = OpenAI(
api_key="你的API_KEY",
base_url="https://open.bigmodel.cn/api/paas/v4/"
)
# 百度千帆
client = OpenAI(
api_key="你的API_KEY",
base_url="https://qianfan.baidubce.com/v2"
)
# 阿里百炼
client = OpenAI(
api_key="你的API_KEY",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
# 调用示例
response = client.chat.completions.create(
model="glm-4-flash",
messages=[
{"role": "user", "content": "你好"}
]
)
print(response.choices[0].message.content)
5.2 JavaScript - 通用调用
javascript
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: '你的API_KEY',
baseURL: 'https://open.bigmodel.cn/api/paas/v4/'
});
const response = await client.chat.completions.create({
model: 'glm-4-flash',
messages: [{ role: 'user', content: '你好' }]
});
六、注意事项
6.1 避坑指南
- 额度有效期:部分平台免费额度有有效期(如阿里云3个月),注意及时使用
- 并发限制:免费版通常有QPS/RPM限制,高并发场景需付费
- 模型版本:免费版可能是基础版本,高级功能需付费
- 数据隐私:敏感数据建议选择国内平台或本地部署
- 服务稳定性:免费服务可能在高峰期限流
6.2 最佳实践
- 多平台冗余:同时接入多个平台,自动切换故障平台
- Token管理:记录Token消耗,设置告警阈值
- 本地缓存:对高频查询结果进行缓存,减少API调用
- 错误重试:实现指数退避重试机制
- 监控告警:监控API调用成功率和延迟
七、更新记录
| 日期 | 更新内容 |
|---|---|
| 2026-05 | 新增智谱AI GLM-4.7-Flash免费信息 |
| 2026-05 | 更新硅基流动免费额度 |
| 2025-12 | 新增Google Gemini 3.0系列 |
| 2025-12 | 更新各平台最新免费政策 |
总结 :对于国内开发者,智谱AI 和 硅基流动 是最佳选择,免费额度充足且模型能力强;对于需要多模态能力的场景,Google Gemini 是首选;追求低延迟则选 Groq。建议根据具体需求选择1-2个主平台,再配置1个备用平台以保证服务稳定性。