前言
2026年6月1日,全球 Top 10 AI Lab Agnes AI 宣布无限期免费开放其文本、图像、视频三大模态的 API。作为独立开发者,我第一时间注册并做了完整测试。本文将分享整个接入过程、测试结果以及踩到的坑。
一、基础配置
注册与 Key 获取
访问 platform.agnes-ai.com 注册即可创建 API Key,无需绑定银行卡,无限期免费。
API 基础信息
| 项目 | 内容 |
|---|---|
| Base URL | https://apihub.agnes-ai.com/v1 |
| 认证方式 | Bearer Token |
| 兼容协议 | OpenAI 兼容 |
二、文生图测试
模型选择
| 模型 | 用途 |
|---|---|
agnes-image-2.1-flash |
纯文生图 |
agnes-image-2.0-flash |
图生图/图片编辑/多图合成 |
测试过程
使用 OpenAI Python 库调用:
python
复制
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://apihub.agnes-ai.com/v1"
)
response = client.images.generate(
model="agnes-image-2.1-flash",
prompt="一只可爱的柴犬在樱花树下睡觉,温暖的阳光,柔和的粉色花瓣飘落",
size="1024x1024"
)
测试结果 ✅
Prompt :一只可爱的柴犬在樱花树下睡觉,温暖的阳光,柔和的粉色花瓣飘落 尺寸 :1024x1024 生成耗时 :约 5 秒 效果:柴犬毛色准确,樱花树完整,花瓣飘落细节到位,暖色调光线自然

中文 prompt 完全支持,无需翻译为英文。
❗ 踩坑记录 #1
最初我没有区分文生图和图生图的参数差异,在文生图时也传了 extra_body.response_format,结果报错:
UnsupportedParamsError: Setting `response_format` is not supported by openai, agnes-t2i-general-model
原因 :纯文生图(t2i)模型不支持 response_format 参数,该参数仅用于图生图(img2img)模式。
解决方案 :纯文生图时不要传 extra_body,图生图/图片编辑时才传:
python
复制
# 文生图 - 不需要 extra_body
response = client.images.generate(
model="agnes-image-2.1-flash",
prompt="...",
size="1024x1024"
)
# 图生图 - 需要 extra_body
response = client.images.generate(
model="agnes-image-2.0-flash",
prompt="改成水彩画风格",
size="1024x768",
extra_body={
"tags": ["img2img"],
"image": ["https://example.com/photo.png"],
"response_format": "url"
}
)
三、文生视频测试
模型与架构
视频模型 agnes-video-v2.0 采用异步任务工作流:
Step 1: POST /v1/videos → 返回 task_id
Step 2: GET /v1/videos/{task_id} → 轮询直至 completed
核心参数
| 参数 | 说明 |
|---|---|
model |
固定为 agnes-video-v2.0 |
prompt |
视频描述(建议英文) |
width / height |
默认 1152x768 |
num_frames |
帧数,≤441,格式需满足 8n+1 |
frame_rate |
帧率,范围 1-60 |
视频时长公式:seconds = num_frames / frame_rate
常见配置:
| 目标时长 | num_frames | frame_rate |
|---|---|---|
| ~5 秒 | 121 | 24 |
| ~10 秒 | 241 | 24 |
| ~18 秒 | 441 | 24 |
测试过程
python
复制
测试结果 ✅
我们进行了多次视频生成测试:
| 测试场景 | Prompt | 耗时 | 文件大小 | 是否有声 |
|---|---|---|---|---|
| 柴犬樱花 | Shiba Inu under cherry blossom | ~3min | 412KB | ✅ |
| 跑车山路 | Red sports car on mountain road | ~2.5min | 942KB | ✅ |
| 中国夜市 | Chinese night market street food | ~2.5min | 1.4MB | ✅ 含英文对话 |
| 饺子馆 | Chinese dumpling restaurant | ~3min | 1.2MB | ✅ 含中文对话 |
agnes_test_video
agnes_test_car
agnes_test_chinese_video
agnes_test_chinese_speech
❗ 踩坑记录 #2
API 响应中实际返回的视频 URL 字段名是 remixed_from_video_id,而不是官方文档中写的 video_url:
json
复制
{
"status": "completed",
"remixed_from_video_id": "https://storage.googleapis.com/...",
// 没有 "video_url" 字段!
}
建议:代码中做兼容处理:
python
复制
video_url = result.get("video_url") or result.get("remixed_from_video_id")
音频能力实测
这是本次测试最惊喜的发现。我们设计了多组场景来验证音频能力:
| 测试 | Prompt 描述 | 生成的音频内容 |
|---|---|---|
| 夜市 | "people chatting, ambient city sounds" | 英文对话:"the hot noodles fresh and delicious" |
| 饺子馆 | "chef is speaking Chinese to customers, saying '欢迎光临,请坐'" | 中文对话:"欢迎光临,请坐" |
结论:
- 视频自带 AAC 音频,无需额外配音
- 支持中英文双语口语对话
- 在 prompt 中描述具体台词(如 "saying '欢迎光临,请坐'"),模型会尝试按描述内容生成
- 台词内容由模型按场景理解生成,不一定 100% 复现指定文字
四、总结
能力矩阵
| 能力 | 模型 | 实测结果 |
|---|---|---|
| 文生图 | agnes-image-2.1-flash |
✅ 效果优秀,5秒出图 |
| 图生图/编辑 | agnes-image-2.0-flash |
🆗 按文档集成,未深度测试 |
| 文生视频 | agnes-video-v2.0 |
✅ 效果良好,2-3分钟出片 |
| 图生视频 | agnes-video-v2.0 |
🆗 按文档集成 |
| 关键帧动画 | agnes-video-v2.0 |
🆗 按文档集成 |
| 视频音频(英文) | 自动生成 | ✅ 含口语对话 |
| 视频音频(中文) | 自动生成 | ✅ 实测支持 |
| 文本对话 | agnes-2.0-flash |
✅ 支持中文对话 |
已知 Bug / 需注意
- 字段名不一致 :
video_url→ 实际为remixed_from_video_id - 参数限制 :文生图不支持
extra_body.response_format - 生成耗时:视频生成约 2-3 分钟(3-5 秒内容),需异步轮询
总体评价
作为一款免费的全模态 API,Agnes AI 的表现超出了预期。图像生成质量在线,视频具备流畅的动态表现和电影级质感,最惊喜的是自带中英文音频对话能力。虽然还有一些小坑(字段名不一致、文档更新滞后),但考虑到完全免费且无需绑卡,对个人开发者和内容创作者来说,是一个非常值得尝试的选择。