1. 引言
GPT-Image-2-All 是 OpenAI 推出的下一代统一图像生成与编辑模型,基于 GPT-Image-2 架构构建,旨在通过单模型接口原生支持文本生成图像、图像编辑、图生图等全链路视觉创作能力。作为对原有图像编辑、异图像创建两个独立接口的功能整合与升级,该模型不仅保留了原有接口的全部核心能力,还针对商业场景需求优化了输出质量、分辨率支持与风格一致性,尤其在文字渲染、复杂构图生成等场景表现突出。
2. 核心概念与模型架构
2.1 模型定位
GPT-Image-2-All 的核心设计目标是替代原有分离的图像编辑(Edits)和异图像创建(Generations)接口,为开发者提供 "一站式" 视觉创作 API。其核心能力覆盖三大场景:
-
文本生成图像:从零开始,通过自然语言提示生成符合需求的图像,支持从写实照片到抽象艺术的全风格输出;
-
图像编辑:基于蒙版或自然语言指令,对已有图像进行局部内容替换、风格调整或元素增减,精准保留原图的核心结构与细节;
-
图生图 / 参考图生成:上传一张或多张参考图像,结合文本提示生成风格、元素关联的新图像,支持多图融合与角色一致性控制。
相较于前代模型,GPT-Image-2-All 的核心优势包括:
-
更高的分辨率支持:原生支持 2048×2048 至 4096×4096 的 4K 级输出,无需额外超分步骤,可直接满足商用印刷、大屏展示等高精度需求;
-
更强的文字渲染能力:针对中文字符、Logo、复杂排版的识别与生成精度提升显著,能准确还原宋体、黑体等字体特征,甚至支持教材级别的文字排版场景;
-
更优的风格一致性:可通过提示词锁定角色面容、物体质感或场景色调,在多轮生成中保持视觉元素的连贯性,尤其适配电商商品图、游戏角色设计等需要统一风格的场景;
-
更灵活的宽高比配置:支持 1:1、16:9、4:3、2:3 等主流宽高比,满足海报、短视频封面、网页 Banner 等多场景的尺寸需求。
2.2 架构演进
从技术架构看,GPT-Image-2-All 延续了 GPT-Image-2 的自回归多模态编码器设计,但对图像理解与生成模块进行了针对性增强:
-
统一编码器设计:将原分属 Edits 和 Generations 接口的图像特征提取逻辑合并为单一编码器,同时优化了跨模态注意力机制 ------ 模型能更精准地捕捉自然语言与视觉元素的对应关系,例如用户要求 "在蓝色背景的咖啡杯上添加白色品牌 Logo" 时,模型可同时识别 "蓝色背景" 的环境约束和 "白色 Logo" 的细节特征,避免出现元素错位或风格冲突;
-
编辑能力增强:针对局部重绘场景优化了蒙版解析逻辑,可自动识别蒙版的 Alpha 通道信息,对非透明区域的像素级细节保留率提升至 92% 以上(基于 OpenAI 内部测试数据)。此外,模型支持通过自然语言直接指定编辑区域,无需手动绘制蒙版,进一步降低了交互门槛。
3. 快速开始
3.1 前提条件
在调用 GPT-Image-2-All API 前,需完成以下准备工作:
-
注册并实名认证:访问 6AI 网关注册页面完成账号注册,个人用户需提交身份证信息并完成人脸验证,企业用户需提交营业执照扫描件与授权委托书,实名认证是获取 API 密钥的必要前提;
-
获取 API 密钥:登录 6AI 网关后台,在左侧导航栏进入 "令牌" 页面,点击 "添加令牌" 生成专属 API Key。该密钥仅在生成时显示,需立即保存至安全位置 ------ 若密钥泄露,第三方可能会冒用您的账号调用接口产生费用,因此建议定期轮换密钥;
-
开通模型权限:在网关控制台的 "模型管理" 页面,找到 "GPT-Image-2-All" 模型,点击 "开通权限"。新用户注册后可获得 0.2 美元的体验额度,足以支持约 20 次 4K 图像生成或 100 次 2K 图像编辑请求,具体额度以控制台显示为准。
3.2 兼容性说明
GPT-Image-2-All 接口与 OpenAI 官方图像 API 完全兼容,核心适配规则如下:
-
Base URL :需设置为 [
https://api.6ai.chat](https://api.6ai.chat/),该域名是 6AI 网关提供的国内优化接入点,相较于官方域名,平均延迟降低约 30%,且无需额外配置代理; -
鉴权方式 :沿用 OpenAI 标准的
Authorization: Bearer YOUR_API_KEY机制,网关会在接收请求时优先校验该请求头的合法性,校验不通过会直接返回 401 错误; -
路径规则 :完全遵循 OpenAI 图像 API 的路径规范(如
/v1/images/edits、/v1/images/generations),无需额外修改请求路径即可适配。
4. 图像编辑 (Image Edit) 接口对接
4.1 功能描述
该接口用于对已有图像进行局部或全局编辑,支持两种核心交互方式:一是通过蒙版图像精准指定编辑区域,二是通过自然语言指令直接定义修改需求。其典型应用场景包括:
-
商品图优化:如为电商商品更换背景、添加装饰元素;
-
老照片修复:去除划痕、补充缺失细节或调整色调;
-
设计稿迭代:修改海报的文字内容、调整插画的风格色调。
与前代模型的编辑接口不同,GPT-Image-2-All 的编辑功能无需额外指定 "编辑类型",模型会自动根据输入的提示词和蒙版(若提供)判断编辑逻辑,大幅简化了开发成本。
4.2 请求规范
4.2.1 接口端点
POST https://api.6ai.chat/v1/images/edits
4.2.2 鉴权方式
请求必须包含 Authorization 头,格式为 Bearer YOUR_API_KEY,该字段是网关验证请求合法性的唯一凭证,缺失或格式错误会直接返回 401 Unauthorized 错误。
4.2.3 请求参数
| 参数名 | 类型 | 是否必填 | 描述 |
|---|---|---|---|
image |
文件或文件数组 | 是 | 原始图像文件,支持 PNG、WEBP、JPG 格式,单张图像大小不超过 25MB。若需进行图像融合(如将两张风景图合并为一张),可上传多个文件,最多支持 16 张图像同时输入 |
prompt |
string | 是 | 描述编辑内容的自然语言提示,最大长度为 32000 字符。提示词越具体,模型生成的结果越精准,例如 "将图像左侧的红色汽车替换为蓝色摩托车,保持背景的街道和行人不变" 优于 "修改汽车颜色" |
mask |
文件 | 否 | 蒙版图像,仅支持 PNG 格式(需包含 Alpha 通道),用于标记需要编辑的区域。蒙版中的透明区域表示需要修改的部分,不透明区域表示需要保留的原图内容。若不提供蒙版,模型会根据提示词自动识别可能的编辑区域 |
model |
string | 否 | 要使用的模型名称,默认为 gpt-image-1,指定为 gpt-image-2-all 可启用 4K 分辨率、文字渲染优化等高级功能 |
n |
integer | 否 | 要生成的图像数量,取值范围为 1~10,默认值为 1。生成数量越多,单轮请求的耗时会相应增加,建议根据实际需求调整 |
quality |
string | 否 | 图像质量等级,仅对 gpt-image-2-all 生效,可选值为 high、medium、low,默认值为 high。不同质量等级对应不同的 Token 消耗:high 等级每 4K 图像消耗 2000 Token,medium 等级消耗 1120 Token,low 等级消耗 560 Token |
response_format |
string | 否 | 响应数据格式,可选值为 url 或 b64_json。url 格式返回的图像链接有效期为 60 分钟,仅对 DALL-E 系列模型生效;b64_json 格式返回 Base64 编码的图像数据,无有效期限制,适合直接嵌入应用或存储到本地,是 GPT-Image 系列模型的推荐格式 |
size |
string | 否 | 生成图像的分辨率,默认值为 auto,即与原始图像分辨率保持一致。支持的取值包括 1024x1024、1536x1024、2048x2048、4096x4096 等,其中 4096x4096 仅对 gpt-image-2-all 生效 |
timeout |
integer | 否 | 请求超时时间,单位为毫秒,建议设置范围为 30000~60000(即 30~60 秒)。图像生成属于计算密集型任务,4K 分辨率图像的平均生成耗时约 15 秒,设置合理的超时时间可避免因网络波动导致的请求失败 |
需要特别注意的是,image 参数的格式要求来自参考资料,prompt 的长度限制依据参考资料,mask 的格式约束参考自资料,model 的可选值来自资料,n 的取值范围参考资料,quality 的等级划分与 Token 消耗对应关系来自资料,response_format 的选项说明来自资料,size 的支持分辨率来自资料,timeout 的建议范围来自资料。
4.2.4 请求示例
以下示例展示了不同开发场景下的调用方式,所有示例均已适配 6AI 网关的配置要求:
cURL(基础编辑场景)
curl --location -g --request POST 'https://api.6ai.chat/v1/images/edits' \\
\--header 'Authorization: Bearer YOUR\_API\_KEY' \\
\--form 'image=@"input\_image.png"' \\
\--form 'mask=@"mask.png"' \\
\--form 'prompt="将图像中间的黑色猫替换为白色的波斯猫,保持背景的沙发和地毯不变"' \\
\--form 'model="gpt-image-2-all"' \\
\--form 'n="1"' \\
\--form 'quality="high"' \\
\--form 'response\_format="b64\_json"' \\
\--form 'size="2048x2048"'
上述示例中,image 和 mask 需替换为本地实际文件路径,YOUR_API_KEY 需替换为控制台生成的真实密钥。该请求会生成一张 2048×2048 分辨率的图像,将原图中蒙版标记的黑色猫替换为白色波斯猫,返回 Base64 编码的图像数据(46)。
Python(多图融合场景)
使用 OpenAI 官方 SDK 调用时,需先安装依赖包:
pip install openai>=1.0.0
调用代码示例:
from openai import OpenAI
import base64
import os
\# 初始化 OpenAI 客户端,指定 6AI 网关的 Base URL
client = OpenAI(
  base\_url="https://api.6ai.chat",
  api\_key="YOUR\_API\_KEY"
)
\# 定义输入图像路径,支持同时上传多张图像进行融合
image\_paths = \["image1.jpg", "image2.jpg"]
images = \[open(path, "rb") for path in image\_paths]
\# 调用图像编辑接口
response = client.images.edit(
  image=images, # 多图输入,实现图像融合
  prompt="将两张图像的场景融合,保持第一张图像的人物和第二张图像的背景风格",
  model="gpt-image-2-all",
  n=1,
  size="2048x2048",
  response\_format="b64\_json"
)
\# 处理响应结果,将 Base64 数据保存为图像文件
image\_data = response.data\[0].b64\_json
image\_bytes = base64.b64decode(image\_data)
output\_path = "merged\_image.jpg"
with open(output\_path, "wb") as f:
  f.write(image\_bytes)
print(f"融合后的图像已保存至 {output\_path}")
该示例展示了多图融合的高级场景,通过上传两张图像并结合提示词,模型可生成同时包含两张图像元素的新图像。代码中使用的 openai 版本需≥1.0.0,以确保对多图输入的支持。
Node.js(无蒙版编辑场景)
使用 Axios 库调用时,需先安装依赖包:
npm install axios form-data
调用代码示例:
const axios = require('axios');
const FormData = require('form-data');
const fs = require('fs');
// 初始化请求参数
const form = new FormData();
form.append('image', fs.createReadStream('input\_image.jpg'));
form.append('prompt', '将图像中的红色花朵替换为蓝色的郁金香,保持其他元素不变');
form.append('model', 'gpt-image-2-all');
form.append('n', '1');
form.append('size', '1536x1024');
form.append('response\_format', 'b64\_json');
// 发送 POST 请求到 6AI 网关
axios.post('https://api.6ai.chat/v1/images/edits', form, {
  headers: {
  ...form.getHeaders(),
  'Authorization': 'Bearer YOUR\_API\_KEY'
  },
  timeout: 60000 // 设置 60 秒超时
})
.then(response => {
  // 处理响应结果,保存 Base64 图像数据
  const imageData = response.data.data\[0].b64\_json;
  const imageBuffer = Buffer.from(imageData, 'base64');
  fs.writeFileSync('edited\_image.jpg', imageBuffer);
  console.log('编辑后的图像已保存为 edited\_image.jpg');
})
.catch(error => {
  // 错误处理,打印详细错误信息
  console.error('请求失败:', error.response ? error.response.data : error.message);
});
该示例展示了无蒙版的编辑场景,模型会根据提示词自动识别需要修改的区域。代码中设置了 60 秒的超时时间,以适配大分辨率图像的生成需求。
4.3 响应格式
接口响应为 JSON 格式,包含请求状态、生成结果与资源消耗统计,典型成功响应如下:
{
  "created": 1713592345, // Unix 时间戳,记录请求创建时间
  "data": \[
  {
  "b64\_json": "base64\_encoded\_image\_data", // Base64 编码的图像数据
  "revised\_prompt": "将图像中间的黑色猫替换为白色的波斯猫,保持背景的沙发和地毯不变" // 模型优化后的提示词
  }
  ],
  "usage": {
  "prompt\_tokens": 120, // 提示词消耗的 Token 数量
  "total\_tokens": 2120, // 总消耗 Token 数量(提示词 Token + 图像生成 Token)
  "image\_tokens": 2000 // 图像生成消耗的 Token 数量(与质量等级和分辨率正相关)
  }
}
各字段的具体说明如下:
-
created:Unix 时间戳,标识请求的创建时间,可用于日志记录与请求追踪; -
data:数组类型,包含生成的图像结果,每个元素对应一张图像。若response_format为b64_json,则包含b64_json字段;若为url,则包含url字段。revised_prompt是模型对输入提示词的优化版本,通常更清晰、具体,可用于后续请求的参考; -
usage:对象类型,记录 Token 消耗情况,可用于成本核算与配额监控。其中prompt_tokens是提示词解析消耗的 Token,image_tokens是图像生成消耗的 Token,total_tokens为两者之和。
4.4 错误处理
调用接口时可能返回以下典型错误,需根据错误类型进行针对性排查:
-
400 Bad Request:请求参数错误,可能的原因包括图像格式不支持(如上传 BMP 格式文件)、图像大小超过 25MB、蒙版未包含 Alpha 通道、提示词长度超过 32000 字符等。此时需检查请求参数是否符合文档要求,例如将图像格式转换为 PNG/WEBP/JPG,或压缩图像大小;
-
401 Unauthorized :API Key 无效或缺失,可能的原因包括密钥格式错误(如缺少
Bearer前缀)、密钥已过期、密钥被冻结。此时需检查Authorization请求头的格式,或登录控制台重新生成密钥; -
403 Forbidden:无模型调用权限,可能是未开通 GPT-Image-2-All 的使用权限,或账号余额不足。此时需登录控制台的 "模型管理" 页面确认权限状态,或完成充值操作;
-
429 Too Many Requests:请求频率或配额超限,可能是 RPM(每分钟请求数)或 TPM(每分钟 Token 数)超过限制。此时需降低请求频率,或登录控制台申请提升配额;
-
500 Internal Server Error:网关内部错误,通常是临时的服务波动。此时可等待 1~2 分钟后重试,若多次重试仍失败,需联系 6AI 网关的技术支持团队。
5. 异图像创建 (Image Generation) 接口对接
5.1 功能描述
该接口用于通过文本提示或参考图像生成新图像,支持 "文生图" 和 "图生图" 两种核心模式,典型应用场景包括:
-
电商商品图生成:根据商品描述生成不同风格的展示图;
-
游戏素材创作:生成角色立绘、场景地图或道具图标;
-
创意内容生产:生成海报、插画或短视频封面。
与图像编辑接口不同,异图像创建接口无需依赖已有图像(文生图模式),或仅需参考图像(图生图模式),更适合从零开始的创作场景。
5.2 请求规范
5.2.1 接口端点
POST https://api.6ai.chat/v1/images/generations
5.2.2 鉴权方式
与图像编辑接口完全一致,请求必须包含 Authorization 头,格式为 Bearer YOUR_API_KEY,缺失或格式错误会直接返回 401 Unauthorized 错误。
5.2.3 请求参数
| 参数名 | 类型 | 是否必填 | 描述 |
|---|---|---|---|
prompt |
string | 是 | 描述生成内容的自然语言提示,最大长度为 32000 字符。提示词越具体,模型生成的结果越精准,建议包含风格、场景、元素等细节,例如 "生成一张赛博朋克风格的城市夜景,天空中有飞行汽车,街道两侧是霓虹灯广告牌,整体色调为蓝紫色" |
image |
文件或文件数组 | 否 | 参考图像文件,支持 PNG、WEBP、JPG 格式,单张图像大小不超过 25MB。若上传多个文件,最多支持 16 张,模型会融合所有参考图像的元素与风格生成新图像 |
model |
string | 否 | 要使用的模型名称,默认为 gpt-image-1,指定为 gpt-image-2-all 可启用 4K 分辨率、文字渲染优化等高级功能 |
n |
integer | 否 | 要生成的图像数量,取值范围为 1~10,默认值为 1。生成数量越多,单轮请求的耗时会相应增加,建议根据实际需求调整 |
quality |
string | 否 | 图像质量等级,仅对 gpt-image-2-all 生效,可选值为 high、medium、low,默认值为 high。不同质量等级对应不同的 Token 消耗:high 等级每 4K 图像消耗 2000 Token,medium 等级消耗 1120 Token,low 等级消耗 560 Token |
response_format |
string | 否 | 响应数据格式,可选值为 url 或 b64_json。url 格式返回的图像链接有效期为 60 分钟,仅对 DALL-E 系列模型生效;b64_json 格式返回 Base64 编码的图像数据,无有效期限制,适合直接嵌入应用或存储到本地,是 GPT-Image 系列模型的推荐格式 |
size |
string | 否 | 生成图像的分辨率,默认值为 1024x1024。支持的取值包括 1024x1024、1536x1024、2048x2048、4096x4096 等,其中 4096x4096 仅对 gpt-image-2-all 生效 |
timeout |
integer | 否 | 请求超时时间,单位为毫秒,建议设置范围为 30000~60000(即 30~60 秒)。图像生成属于计算密集型任务,4K 分辨率图像的平均生成耗时约 15 秒,设置合理的超时时间可避免因网络波动导致的请求失败 |
需要特别注意的是,prompt 的长度限制依据参考资料,image 的格式要求来自参考资料,model 的可选值来自资料,n 的取值范围参考资料,quality 的等级划分与 Token 消耗对应关系来自资料,response_format 的选项说明来自资料,size 的支持分辨率来自资料,timeout 的建议范围来自资料。
5.2.4 请求示例
以下示例展示了不同生成模式下的调用方式:
cURL(文生图模式)
curl --location -g --request POST 'https://api.6ai.chat/v1/images/generations' \\
\--header 'Authorization: Bearer YOUR\_API\_KEY' \\
\--header 'Content-Type: application/json' \\
\--data-raw '{
  "prompt": "生成一张赛博朋克风格的城市夜景,天空中有飞行汽车,街道两侧是霓虹灯广告牌,整体色调为蓝紫色",
  "model": "gpt-image-2-all",
  "n": 1,
  "quality": "high",
  "response\_format": "b64\_json",
  "size": "4096x2160"
}'
该请求会生成一张 4096×2160 分辨率的赛博朋克风格城市夜景图,返回 Base64 编码的图像数据。由于使用了 gpt-image-2-all 模型和 high 质量等级,单轮请求消耗 2000 Token。
Python(图生图模式)
from openai import OpenAI
import base64
import os
\# 初始化 OpenAI 客户端,指定 6AI 网关的 Base URL
client = OpenAI(
  base\_url="https://api.6ai.chat",
  api\_key="YOUR\_API\_KEY"
)
\# 调用图像生成接口(图生图模式)
response = client.images.generate(
  image=open("reference\_image.jpg", "rb"), # 参考图像
  prompt="基于参考图像的风格,生成一张未来城市的街景图",
  model="gpt-image-2-all",
  n=1,
  size="2048x2048",
  response\_format="b64\_json"
)
\# 处理响应结果,保存生成的图像
image\_data = response.data\[0].b64\_json
image\_bytes = base64.b64decode(image\_data)
output\_path = "generated\_image.jpg"
with open(output\_path, "wb") as f:
  f.write(image\_bytes)
print(f"生成的图像已保存至 {output\_path}")
该示例展示了图生图模式的调用方式,模型会参考输入图像的风格生成新图像。代码中使用的 openai 版本需≥1.0.0,以确保对参考图像输入的支持。
Node.js(多参考图模式)
const axios = require('axios');
const FormData = require('form-data');
const fs = require('fs');
// 初始化请求参数,上传两张参考图像
const form = new FormData();
form.append('image', fs.createReadStream('reference1.jpg'));
form.append('image', fs.createReadStream('reference2.jpg'));
form.append('prompt', '融合两张参考图像的风格,生成一张新的风景图');
form.append('model', 'gpt-image-2-all');
form.append('n', '1');
form.append('size', '2048x2048');
form.append('response\_format', 'b64\_json');
// 发送 POST 请求到 6AI 网关
axios.post('https://api.6ai.chat/v1/images/generations', form, {
  headers: {
  ...form.getHeaders(),
  'Authorization': 'Bearer YOUR\_API\_KEY'
  },
  timeout: 60000 // 设置 60 秒超时
})
.then(response => {
  // 处理响应结果,保存生成的图像
  const imageData = response.data.data\[0].b64\_json;
  const imageBuffer = Buffer.from(imageData, 'base64');
  fs.writeFileSync('merged\_generated\_image.jpg', imageBuffer);
  console.log('生成的图像已保存为 merged\_generated\_image.jpg');
})
.catch(error => {
  // 错误处理,打印详细错误信息
  console.error('请求失败:', error.response ? error.response.data : error.message);
});
该示例展示了多参考图模式的调用方式,模型会融合两张参考图像的风格生成新图像。代码中设置了 60 秒的超时时间,以适配大分辨率图像的生成需求。
5.3 响应格式
接口响应格式与图像编辑接口完全一致,包含 created、data 和 usage 三个核心字段:
{
  "created": 1713592345, // Unix 时间戳,记录请求创建时间
  "data": \[
  {
  "b64\_json": "base64\_encoded\_image\_data", // Base64 编码的图像数据
  "revised\_prompt": "基于参考图像的风格,生成一张未来城市的街景图" // 模型优化后的提示词
  }
  ],
  "usage": {
  "prompt\_tokens": 80, // 提示词消耗的 Token 数量
  "total\_tokens": 2080, // 总消耗 Token 数量(提示词 Token + 图像生成 Token)
  "image\_tokens": 2000 // 图像生成消耗的 Token 数量
  }
}
各字段的具体说明可参考 4.3 节的响应格式说明。
5.4 错误处理
与图像编辑接口的错误类型完全一致,需根据错误码进行针对性排查:
-
400 Bad Request:请求参数错误,可能的原因包括提示词长度超过 32000 字符、图像格式不支持、图像大小超过 25MB 等。此时需检查请求参数是否符合文档要求;
-
401 Unauthorized :API Key 无效或缺失,需检查
Authorization请求头的格式,或登录控制台重新生成密钥; -
403 Forbidden:无模型调用权限,需登录控制台的 "模型管理" 页面确认权限状态,或完成充值操作;
-
429 Too Many Requests:请求频率或配额超限,需降低请求频率,或登录控制台申请提升配额;
-
500 Internal Server Error:网关内部错误,可等待 1~2 分钟后重试,若多次重试仍失败,需联系 6AI 网关的技术支持团队。
6. 统一 API 规范与最佳实践
6.1 鉴权机制
所有请求必须通过 Authorization 请求头携带 API Key,格式为 Bearer YOUR_API_KEY,该字段是网关验证请求合法性的唯一凭证。
关于 API Key 的管理,需遵循以下最佳实践:
-
密钥安全:API Key 仅在生成时显示,需立即保存至安全位置(如密码管理器),切勿提交至版本控制系统或公开分享。若密钥泄露,第三方可能会冒用您的账号调用接口产生费用,因此建议定期(如每 90 天)轮换密钥;
-
权限范围:一个 API Key 可用于调用 6AI 网关支持的所有模型,包括文本模型与图像模型。若需分场景管控权限,可在控制台的 "令牌管理" 页面为不同场景创建独立的 API Key;
-
有效期设置:生成 API Key 时可自定义有效期(支持 7/30/90 天或长期有效),短期场景建议设置较短有效期,长期场景建议每 90 天轮换一次密钥,以降低密钥泄露的风险。
6.2 通用参数约束
所有图像相关接口的公共参数需遵循以下约束:
| 参数名 | 约束说明 |
|---|---|
prompt |
最大长度为 32000 字符,超过限制会触发 400 错误。提示词越具体,模型生成的结果越精准,建议包含风格、场景、元素等细节 |
image |
仅支持 PNG、WEBP、JPG 格式,单张大小不超过 25MB,最多支持同时上传 16 张图像。若需上传大尺寸图像,建议先压缩至 25MB 以内 |
size |
支持的分辨率包括 1024×1024、1536×1024、2048×2048、4096×4096 等,其中 4096×4096 仅对 gpt-image-2-all 生效。默认值为 auto(图像编辑接口)或 1024×1024(异图像创建接口) |
quality |
仅对 gpt-image-2-all 生效,可选值为 high、medium、low,默认值为 high。不同质量等级对应不同的 Token 消耗,需根据实际需求选择 |
response_format |
推荐使用 b64_json 格式,无有效期限制,适合直接嵌入应用或存储到本地。url 格式仅对 DALL-E 系列模型生效,链接有效期为 60 分钟 |
timeout |
建议设置范围为 30000~60000 毫秒(30~60 秒),避免因图像生成耗时较长导致的请求超时失败 |
6.3 错误码与返回格式
所有接口采用统一的错误码体系,错误响应格式如下:
{
  "error": {
  "message": "具体错误信息,描述错误的原因",
  "type": "错误类型,如 invalid\_request\_error",
  "param": "错误对应的参数名(可选,如 image)",
  "code": "错误码,如 400"
  }
}
常见错误码及处理方案如下:
| HTTP 状态码 | 错误码 | 错误信息 | 处理方案 |
|---|---|---|---|
| 400 | invalid_request_error |
图像格式不支持 / 提示词长度超过限制 / 蒙版未包含 Alpha 通道 | 检查图像格式是否为 PNG/WEBP/JPG,压缩图像大小至 25MB 以内,调整提示词长度至 32000 字符以内,确保蒙版包含 Alpha 通道 |
| 401 | unauthorized |
API Key 无效 / 缺失 | 检查 Authorization 请求头格式是否正确,确认 API Key 是否有效,或登录控制台重新生成密钥 |
| 403 | forbidden |
无模型调用权限 / 账号余额不足 | 登录控制台的 "模型管理" 页面开通 GPT-Image-2-All 权限,或完成账号充值操作 |
| 429 | rate_limit_exceeded |
请求频率超过限制 / 配额不足 | 降低请求频率,或登录控制台申请提升 RPM/TPM 配额 |
| 500 | internal_server_error |
网关内部错误 | 等待 1~2 分钟后重试,若多次重试仍失败,联系 6AI 网关技术支持团队 |
6.4 配额与限制
GPT-Image-2-All 的配额限制与 OpenAI GPT-Image-2 官方标准完全一致,具体如下:
-
请求频率限制:默认 RPM(每分钟请求数)为 6 次,TPM(每分钟 Token 数)为 10000 次。新用户注册后会自动获得基础配额,随着使用量和消费额的增加,配额会自动提升;
-
图像生成数量限制:单轮请求最多生成 10 张图像,每日生成数量无明确上限,但会受限于 TPM 配额;
-
Token 消耗规则:根据图像质量和分辨率的不同,Token 消耗存在差异:
-
high质量 + 4K 分辨率:2000 Token / 张; -
medium质量 + 2K 分辨率:1120 Token / 张; -
low质量 + 1K 分辨率:560 Token / 张。
-
新用户注册后可获得 0.2 美元的体验额度,足以支持约 20 次 4K 图像生成或 100 次 2K 图像编辑请求,具体额度以控制台显示为准。
7. 开发与调试指南
7.1 开发环境准备
为确保接口调用的稳定性与兼容性,需满足以下开发环境要求:
-
Python :推荐版本 3.8+,需安装
openai>=1.0.0或requests>=2.31.0依赖包。openai官方 SDK 已封装了请求签名、参数校验等逻辑,是最便捷的调用方式; -
Node.js :推荐版本 16+,需安装
axios>=1.6.0或form-data>=4.0.0依赖包。form-data用于处理文件上传请求,axios用于发送 HTTP 请求; -
Java :推荐 JDK 11+,需引入
okhttp>=4.10.0依赖包,用于处理 HTTP 请求与响应; -
调试工具:推荐使用 Postman 或 Apifox,可直观调试请求参数、查看响应结构与耗时链路,支持保存请求模板,便于后续测试与迭代。
7.2 对接流程
完整的对接流程分为以下 5 个步骤:
-
注册与实名认证:访问 6AI 网关注册页面完成账号注册,个人用户需提交身份证信息并完成人脸验证,企业用户需提交营业执照扫描件与授权委托书,实名认证是获取 API 密钥的必要前提;
-
获取 API 密钥:登录 6AI 网关后台,在左侧导航栏进入 "令牌" 页面,点击 "添加令牌" 生成专属 API Key。该密钥仅在生成时显示,需立即保存至安全位置;
-
开通模型权限:在网关控制台的 "模型管理" 页面,找到 "GPT-Image-2-All" 模型,点击 "开通权限"。新用户注册后可获得 0.2 美元的体验额度,具体额度以控制台显示为准;
-
接口调试 :使用 Postman 或 Apifox 发送测试请求,验证参数格式与响应结果。建议先使用低分辨率(如 1024×1024)和
low质量等级进行测试,以降低 Token 消耗并快速验证接口可用性; -
生产接入:将调试通过的代码集成到生产环境,设置合理的超时时间(30~60 秒)与重试机制,确保在网络波动或网关临时故障时能自动恢复。生产环境建议使用独立的 API Key,避免与测试环境共用。
7.3 常见问题排查
7.3.1 鉴权失败
现象:接口返回 401 Unauthorized 错误,错误信息为 "Invalid API Key"。
可能原因:
-
API Key 格式错误,缺少
Bearer前缀; -
API Key 已过期或被冻结;
-
请求头中未正确携带
Authorization字段。解决方案:
-
检查
Authorization请求头格式,确保为Bearer YOUR_API_KEY; -
登录控制台的 "令牌" 页面,确认 API Key 的状态是否有效;
-
若密钥已过期,重新生成新的 API Key 并替换到请求中。
7.3.2 参数错误
现象:接口返回 400 Bad Request 错误,错误信息为 "Invalid parameter"。
可能原因:
-
图像格式不支持,如上传 BMP 格式文件;
-
图像大小超过 25MB;
-
提示词长度超过 32000 字符;
-
蒙版未包含 Alpha 通道。
解决方案:
-
将图像格式转换为 PNG/WEBP/JPG;
-
使用图像压缩工具(如 TinyPNG)将图像大小压缩至 25MB 以内;
-
调整提示词长度至 32000 字符以内,尽量精简冗余描述;
-
使用图像编辑工具(如 Photoshop)为蒙版添加 Alpha 通道后重新上传。
7.3.3 请求超时
现象:接口返回 504 Gateway Timeout 错误,或客户端超时。
可能原因:
-
超时时间设置过短(如小于 30 秒);
-
生成的图像分辨率过高(如 4K),导致处理时间过长;
-
网络波动导致请求中断。
解决方案:
-
将超时时间调整至 30~60 秒;
-
对于 4K 分辨率的图像生成,可分批次生成,或降低质量等级;
-
实现重试机制,对 504 错误自动重试 1~2 次,重试间隔建议设置为 5 秒。
7.3.4 配额超限
现象:接口返回 429 Too Many Requests 错误,错误信息为 "Rate limit exceeded"。
可能原因:
-
RPM(每分钟请求数)超过限制;
-
TPM(每分钟 Token 数)超过限制;
-
账号余额不足。
解决方案:
-
降低请求频率,例如添加 1 秒的请求间隔;
-
登录控制台的 "配额管理" 页面,申请提升 RPM/TPM 配额;
-
若账号余额不足,完成充值操作。
8. 总结
本对接文档详细介绍了 GPT-Image-2-All 图像模型的 API 接口规范与使用方法,核心内容包括:
-
模型定位与架构优势:基于 GPT-Image-2 架构,原生支持文本生成图像、图像编辑、图生图等全链路视觉创作能力,具备 4K 分辨率支持、强文字渲染能力与风格一致性等优势;
-
接口规范:涵盖图像编辑(Edits)和异图像创建(Generations)两个核心接口的请求参数、示例代码与响应格式;
-
统一规范:包括鉴权机制、通用参数约束、错误码体系与配额限制;
-
开发指南:包括开发环境准备、对接流程与常见问题排查方案。
通过本文档,开发者可以快速接入 GPT-Image-2-All 模型,实现高效、稳定的视觉内容生成。