Agnes AI 全模态 API 免费实测报告：文生图 + 文生视频完整测试

前言

2026年6月1日，全球 Top 10 AI Lab Agnes AI 宣布无限期免费开放其文本、图像、视频三大模态的 API。作为独立开发者，我第一时间注册并做了完整测试。本文将分享整个接入过程、测试结果以及踩到的坑。

一、基础配置

注册与 Key 获取

访问 platform.agnes-ai.com 注册即可创建 API Key，无需绑定银行卡，无限期免费。

API 基础信息

项目	内容
Base URL	https://apihub.agnes-ai.com/v1
认证方式	Bearer Token
兼容协议	OpenAI 兼容

二、文生图测试

模型选择

模型	用途
`agnes-image-2.1-flash`	纯文生图
`agnes-image-2.0-flash`	图生图/图片编辑/多图合成

测试过程

使用 OpenAI Python 库调用：

python

复制

复制代码

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://apihub.agnes-ai.com/v1"
)

response = client.images.generate(
    model="agnes-image-2.1-flash",
    prompt="一只可爱的柴犬在樱花树下睡觉，温暖的阳光，柔和的粉色花瓣飘落",
    size="1024x1024"
)

测试结果 ✅

Prompt ：一只可爱的柴犬在樱花树下睡觉，温暖的阳光，柔和的粉色花瓣飘落尺寸：1024x1024 生成耗时 ：约 5 秒效果：柴犬毛色准确，樱花树完整，花瓣飘落细节到位，暖色调光线自然

中文 prompt 完全支持，无需翻译为英文。

❗ 踩坑记录 #1

最初我没有区分文生图和图生图的参数差异，在文生图时也传了 extra_body.response_format，结果报错：

复制代码

UnsupportedParamsError: Setting `response_format` is not supported by openai, agnes-t2i-general-model

原因：纯文生图（t2i）模型不支持 response_format 参数，该参数仅用于图生图（img2img）模式。

解决方案 ：纯文生图时不要传 extra_body，图生图/图片编辑时才传：

python

复制

复制代码

# 文生图 - 不需要 extra_body
response = client.images.generate(
    model="agnes-image-2.1-flash",
    prompt="...",
    size="1024x1024"
)

# 图生图 - 需要 extra_body
response = client.images.generate(
    model="agnes-image-2.0-flash",
    prompt="改成水彩画风格",
    size="1024x768",
    extra_body={
        "tags": ["img2img"],
        "image": ["https://example.com/photo.png"],
        "response_format": "url"
    }
)

三、文生视频测试

模型与架构

视频模型 agnes-video-v2.0 采用异步任务工作流：

复制代码

Step 1: POST /v1/videos  →  返回 task_id
Step 2: GET  /v1/videos/{task_id}  →  轮询直至 completed

核心参数

参数	说明
`model`	固定为 `agnes-video-v2.0`
`prompt`	视频描述（建议英文）
`width` / `height`	默认 1152x768
`num_frames`	帧数，≤441，格式需满足 8n+1
`frame_rate`	帧率，范围 1-60

视频时长公式：seconds = num_frames / frame_rate

常见配置：

目标时长	num_frames	frame_rate
~5 秒	121	24
~10 秒	241	24
~18 秒	441	24

测试过程

python

复制

测试结果 ✅

我们进行了多次视频生成测试：

测试场景	Prompt	耗时	文件大小	是否有声
柴犬樱花	Shiba Inu under cherry blossom	~3min	412KB	✅
跑车山路	Red sports car on mountain road	~2.5min	942KB	✅
中国夜市	Chinese night market street food	~2.5min	1.4MB	✅ 含英文对话
饺子馆	Chinese dumpling restaurant	~3min	1.2MB	✅ 含中文对话

agnes_test_video

agnes_test_car

agnes_test_chinese_video

agnes_test_chinese_speech

❗ 踩坑记录 #2

API 响应中实际返回的视频 URL 字段名是 remixed_from_video_id，而不是官方文档中写的 video_url：

json

复制

复制代码

{
  "status": "completed",
  "remixed_from_video_id": "https://storage.googleapis.com/...",
  // 没有 "video_url" 字段！
}

建议：代码中做兼容处理：

python

复制

复制代码

video_url = result.get("video_url") or result.get("remixed_from_video_id")

音频能力实测

这是本次测试最惊喜的发现。我们设计了多组场景来验证音频能力：

测试	Prompt 描述	生成的音频内容
夜市	"people chatting, ambient city sounds"	英文对话："the hot noodles fresh and delicious"
饺子馆	"chef is speaking Chinese to customers, saying '欢迎光临，请坐'"	中文对话："欢迎光临，请坐"

结论：

视频自带 AAC 音频，无需额外配音
支持中英文双语口语对话
在 prompt 中描述具体台词（如 "saying '欢迎光临，请坐'"），模型会尝试按描述内容生成
台词内容由模型按场景理解生成，不一定 100% 复现指定文字

四、总结

能力矩阵

能力	模型	实测结果
文生图	`agnes-image-2.1-flash`	✅ 效果优秀，5秒出图
图生图/编辑	`agnes-image-2.0-flash`	🆗 按文档集成，未深度测试
文生视频	`agnes-video-v2.0`	✅ 效果良好，2-3分钟出片
图生视频	`agnes-video-v2.0`	🆗 按文档集成
关键帧动画	`agnes-video-v2.0`	🆗 按文档集成
视频音频（英文）	自动生成	✅ 含口语对话
视频音频（中文）	自动生成	✅ 实测支持
文本对话	`agnes-2.0-flash`	✅ 支持中文对话

已知 Bug / 需注意

字段名不一致 ：video_url → 实际为 remixed_from_video_id
参数限制 ：文生图不支持 extra_body.response_format
生成耗时：视频生成约 2-3 分钟（3-5 秒内容），需异步轮询

总体评价

作为一款免费的全模态 API，Agnes AI 的表现超出了预期。图像生成质量在线，视频具备流畅的动态表现和电影级质感，最惊喜的是自带中英文音频对话能力。虽然还有一些小坑（字段名不一致、文档更新滞后），但考虑到完全免费且无需绑卡，对个人开发者和内容创作者来说，是一个非常值得尝试的选择。