Agnes AI 全模态 API 免费实测报告:文生图 + 文生视频完整测试

前言

2026年6月1日,全球 Top 10 AI Lab Agnes AI 宣布无限期免费开放其文本、图像、视频三大模态的 API。作为独立开发者,我第一时间注册并做了完整测试。本文将分享整个接入过程、测试结果以及踩到的坑。

一、基础配置

注册与 Key 获取

访问 platform.agnes-ai.com 注册即可创建 API Key,无需绑定银行卡,无限期免费。

API 基础信息

项目 内容
Base URL https://apihub.agnes-ai.com/v1
认证方式 Bearer Token
兼容协议 OpenAI 兼容

二、文生图测试

模型选择

模型 用途
agnes-image-2.1-flash 纯文生图
agnes-image-2.0-flash 图生图/图片编辑/多图合成

测试过程

使用 OpenAI Python 库调用:

python

复制

复制代码
from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://apihub.agnes-ai.com/v1"
)

response = client.images.generate(
    model="agnes-image-2.1-flash",
    prompt="一只可爱的柴犬在樱花树下睡觉,温暖的阳光,柔和的粉色花瓣飘落",
    size="1024x1024"
)

测试结果 ✅

Prompt :一只可爱的柴犬在樱花树下睡觉,温暖的阳光,柔和的粉色花瓣飘落 尺寸 :1024x1024 生成耗时 :约 5 秒 效果:柴犬毛色准确,樱花树完整,花瓣飘落细节到位,暖色调光线自然

中文 prompt 完全支持,无需翻译为英文。

❗ 踩坑记录 #1

最初我没有区分文生图和图生图的参数差异,在文生图时也传了 extra_body.response_format,结果报错:

复制代码
UnsupportedParamsError: Setting `response_format` is not supported by openai, agnes-t2i-general-model

原因 :纯文生图(t2i)模型不支持 response_format 参数,该参数仅用于图生图(img2img)模式。

解决方案 :纯文生图时不要传 extra_body,图生图/图片编辑时才传:

python

复制

复制代码
# 文生图 - 不需要 extra_body
response = client.images.generate(
    model="agnes-image-2.1-flash",
    prompt="...",
    size="1024x1024"
)

# 图生图 - 需要 extra_body
response = client.images.generate(
    model="agnes-image-2.0-flash",
    prompt="改成水彩画风格",
    size="1024x768",
    extra_body={
        "tags": ["img2img"],
        "image": ["https://example.com/photo.png"],
        "response_format": "url"
    }
)

三、文生视频测试

模型与架构

视频模型 agnes-video-v2.0 采用异步任务工作流

复制代码
Step 1: POST /v1/videos  →  返回 task_id
Step 2: GET  /v1/videos/{task_id}  →  轮询直至 completed

核心参数

参数 说明
model 固定为 agnes-video-v2.0
prompt 视频描述(建议英文)
width / height 默认 1152x768
num_frames 帧数,≤441,格式需满足 8n+1
frame_rate 帧率,范围 1-60

视频时长公式:seconds = num_frames / frame_rate

常见配置:

目标时长 num_frames frame_rate
~5 秒 121 24
~10 秒 241 24
~18 秒 441 24

测试过程

python

复制

测试结果 ✅

我们进行了多次视频生成测试:

测试场景 Prompt 耗时 文件大小 是否有声
柴犬樱花 Shiba Inu under cherry blossom ~3min 412KB
跑车山路 Red sports car on mountain road ~2.5min 942KB
中国夜市 Chinese night market street food ~2.5min 1.4MB ✅ 含英文对话
饺子馆 Chinese dumpling restaurant ~3min 1.2MB ✅ 含中文对话

agnes_test_video

agnes_test_car

agnes_test_chinese_video

agnes_test_chinese_speech

❗ 踩坑记录 #2

API 响应中实际返回的视频 URL 字段名是 remixed_from_video_id,而不是官方文档中写的 video_url

json

复制

复制代码
{
  "status": "completed",
  "remixed_from_video_id": "https://storage.googleapis.com/...",
  // 没有 "video_url" 字段!
}

建议:代码中做兼容处理:

python

复制

复制代码
video_url = result.get("video_url") or result.get("remixed_from_video_id")

音频能力实测

这是本次测试最惊喜的发现。我们设计了多组场景来验证音频能力:

测试 Prompt 描述 生成的音频内容
夜市 "people chatting, ambient city sounds" 英文对话:"the hot noodles fresh and delicious"
饺子馆 "chef is speaking Chinese to customers, saying '欢迎光临,请坐'" 中文对话:"欢迎光临,请坐"

结论

  • 视频自带 AAC 音频,无需额外配音
  • 支持中英文双语口语对话
  • 在 prompt 中描述具体台词(如 "saying '欢迎光临,请坐'"),模型会尝试按描述内容生成
  • 台词内容由模型按场景理解生成,不一定 100% 复现指定文字

四、总结

能力矩阵

能力 模型 实测结果
文生图 agnes-image-2.1-flash ✅ 效果优秀,5秒出图
图生图/编辑 agnes-image-2.0-flash 🆗 按文档集成,未深度测试
文生视频 agnes-video-v2.0 ✅ 效果良好,2-3分钟出片
图生视频 agnes-video-v2.0 🆗 按文档集成
关键帧动画 agnes-video-v2.0 🆗 按文档集成
视频音频(英文) 自动生成 ✅ 含口语对话
视频音频(中文) 自动生成 ✅ 实测支持
文本对话 agnes-2.0-flash ✅ 支持中文对话

已知 Bug / 需注意

  1. 字段名不一致video_url → 实际为 remixed_from_video_id
  2. 参数限制 :文生图不支持 extra_body.response_format
  3. 生成耗时:视频生成约 2-3 分钟(3-5 秒内容),需异步轮询

总体评价

作为一款免费的全模态 API,Agnes AI 的表现超出了预期。图像生成质量在线,视频具备流畅的动态表现和电影级质感,最惊喜的是自带中英文音频对话能力。虽然还有一些小坑(字段名不一致、文档更新滞后),但考虑到完全免费且无需绑卡,对个人开发者和内容创作者来说,是一个非常值得尝试的选择。

相关推荐
Zy宇22 分钟前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
雪隐1 小时前
个人电脑玩AI-06让5060 Ti给你打工——Qwen3.6-35B-A3B + LM Studio + openWebUI
人工智能·后端
得物技术1 小时前
从表单到 Agent:得物社区活动搭建的 AI 实践之路
人工智能·架构·agent
Weigang1 小时前
给 Agent 接入 Qdrant 前,先写清楚检索合同
人工智能
字节跳动数据库1 小时前
文章分享——庖丁解牛-图解查询分析和调优利器Optimizer Trace
人工智能·程序员
以和为贵2 小时前
前端手写 RAG 踩坑实录:四个让检索"翻车"的坑
前端·人工智能·面试
何时梦醒2 小时前
深入理解 LLM Tokenization:从文本分词到语义向量化的完整旅程
人工智能
冬哥聊AI2 小时前
阿里二面:8K Token 撑住 100 轮对话,你的分层记忆架构怎么设计?
人工智能
拾年2752 小时前
我用 30 行代码,搞懂了大模型是怎么"读"中文的
javascript·人工智能·llm
Tigger2 小时前
受不了 ¥98/年的订阅,我用 Vibe Coding 自己写了个剪贴板工具
人工智能·开源·mac