GPT-Image-2-All 图像模型 API 对接

1. 引言

GPT-Image-2-All 是 OpenAI 推出的下一代统一图像生成与编辑模型,基于 GPT-Image-2 架构构建,旨在通过单模型接口原生支持文本生成图像、图像编辑、图生图等全链路视觉创作能力。作为对原有图像编辑、异图像创建两个独立接口的功能整合与升级,该模型不仅保留了原有接口的全部核心能力,还针对商业场景需求优化了输出质量、分辨率支持与风格一致性,尤其在文字渲染、复杂构图生成等场景表现突出。

2. 核心概念与模型架构

2.1 模型定位

GPT-Image-2-All 的核心设计目标是替代原有分离的图像编辑(Edits)和异图像创建(Generations)接口,为开发者提供 "一站式" 视觉创作 API。其核心能力覆盖三大场景:

  • 文本生成图像:从零开始,通过自然语言提示生成符合需求的图像,支持从写实照片到抽象艺术的全风格输出;

  • 图像编辑:基于蒙版或自然语言指令,对已有图像进行局部内容替换、风格调整或元素增减,精准保留原图的核心结构与细节;

  • 图生图 / 参考图生成:上传一张或多张参考图像,结合文本提示生成风格、元素关联的新图像,支持多图融合与角色一致性控制。

相较于前代模型,GPT-Image-2-All 的核心优势包括:

  • 更高的分辨率支持:原生支持 2048×2048 至 4096×4096 的 4K 级输出,无需额外超分步骤,可直接满足商用印刷、大屏展示等高精度需求;

  • 更强的文字渲染能力:针对中文字符、Logo、复杂排版的识别与生成精度提升显著,能准确还原宋体、黑体等字体特征,甚至支持教材级别的文字排版场景;

  • 更优的风格一致性:可通过提示词锁定角色面容、物体质感或场景色调,在多轮生成中保持视觉元素的连贯性,尤其适配电商商品图、游戏角色设计等需要统一风格的场景;

  • 更灵活的宽高比配置:支持 1:1、16:9、4:3、2:3 等主流宽高比,满足海报、短视频封面、网页 Banner 等多场景的尺寸需求。

2.2 架构演进

从技术架构看,GPT-Image-2-All 延续了 GPT-Image-2 的自回归多模态编码器设计,但对图像理解与生成模块进行了针对性增强:

  • 统一编码器设计:将原分属 Edits 和 Generations 接口的图像特征提取逻辑合并为单一编码器,同时优化了跨模态注意力机制 ------ 模型能更精准地捕捉自然语言与视觉元素的对应关系,例如用户要求 "在蓝色背景的咖啡杯上添加白色品牌 Logo" 时,模型可同时识别 "蓝色背景" 的环境约束和 "白色 Logo" 的细节特征,避免出现元素错位或风格冲突;

  • 编辑能力增强:针对局部重绘场景优化了蒙版解析逻辑,可自动识别蒙版的 Alpha 通道信息,对非透明区域的像素级细节保留率提升至 92% 以上(基于 OpenAI 内部测试数据)。此外,模型支持通过自然语言直接指定编辑区域,无需手动绘制蒙版,进一步降低了交互门槛。

3. 快速开始

3.1 前提条件

在调用 GPT-Image-2-All API 前,需完成以下准备工作:

  1. 注册并实名认证:访问 6AI 网关注册页面完成账号注册,个人用户需提交身份证信息并完成人脸验证,企业用户需提交营业执照扫描件与授权委托书,实名认证是获取 API 密钥的必要前提;

  2. 获取 API 密钥:登录 6AI 网关后台,在左侧导航栏进入 "令牌" 页面,点击 "添加令牌" 生成专属 API Key。该密钥仅在生成时显示,需立即保存至安全位置 ------ 若密钥泄露,第三方可能会冒用您的账号调用接口产生费用,因此建议定期轮换密钥;

  3. 开通模型权限:在网关控制台的 "模型管理" 页面,找到 "GPT-Image-2-All" 模型,点击 "开通权限"。新用户注册后可获得 0.2 美元的体验额度,足以支持约 20 次 4K 图像生成或 100 次 2K 图像编辑请求,具体额度以控制台显示为准。

3.2 兼容性说明

GPT-Image-2-All 接口与 OpenAI 官方图像 API 完全兼容,核心适配规则如下:

  • Base URL :需设置为 [https://api.6ai.chat](https://api.6ai.chat/),该域名是 6AI 网关提供的国内优化接入点,相较于官方域名,平均延迟降低约 30%,且无需额外配置代理;

  • 鉴权方式 :沿用 OpenAI 标准的 Authorization: Bearer YOUR_API_KEY 机制,网关会在接收请求时优先校验该请求头的合法性,校验不通过会直接返回 401 错误;

  • 路径规则 :完全遵循 OpenAI 图像 API 的路径规范(如 /v1/images/edits/v1/images/generations),无需额外修改请求路径即可适配。

4. 图像编辑 (Image Edit) 接口对接

4.1 功能描述

该接口用于对已有图像进行局部或全局编辑,支持两种核心交互方式:一是通过蒙版图像精准指定编辑区域,二是通过自然语言指令直接定义修改需求。其典型应用场景包括:

  • 商品图优化:如为电商商品更换背景、添加装饰元素;

  • 老照片修复:去除划痕、补充缺失细节或调整色调;

  • 设计稿迭代:修改海报的文字内容、调整插画的风格色调。

与前代模型的编辑接口不同,GPT-Image-2-All 的编辑功能无需额外指定 "编辑类型",模型会自动根据输入的提示词和蒙版(若提供)判断编辑逻辑,大幅简化了开发成本。

4.2 请求规范

4.2.1 接口端点

POST https://api.6ai.chat/v1/images/edits

4.2.2 鉴权方式

请求必须包含 Authorization 头,格式为 Bearer YOUR_API_KEY,该字段是网关验证请求合法性的唯一凭证,缺失或格式错误会直接返回 401 Unauthorized 错误。

4.2.3 请求参数
参数名 类型 是否必填 描述
image 文件或文件数组 原始图像文件,支持 PNG、WEBP、JPG 格式,单张图像大小不超过 25MB。若需进行图像融合(如将两张风景图合并为一张),可上传多个文件,最多支持 16 张图像同时输入
prompt string 描述编辑内容的自然语言提示,最大长度为 32000 字符。提示词越具体,模型生成的结果越精准,例如 "将图像左侧的红色汽车替换为蓝色摩托车,保持背景的街道和行人不变" 优于 "修改汽车颜色"
mask 文件 蒙版图像,仅支持 PNG 格式(需包含 Alpha 通道),用于标记需要编辑的区域。蒙版中的透明区域表示需要修改的部分,不透明区域表示需要保留的原图内容。若不提供蒙版,模型会根据提示词自动识别可能的编辑区域
model string 要使用的模型名称,默认为 gpt-image-1,指定为 gpt-image-2-all 可启用 4K 分辨率、文字渲染优化等高级功能
n integer 要生成的图像数量,取值范围为 1~10,默认值为 1。生成数量越多,单轮请求的耗时会相应增加,建议根据实际需求调整
quality string 图像质量等级,仅对 gpt-image-2-all 生效,可选值为 highmediumlow,默认值为 high。不同质量等级对应不同的 Token 消耗:high 等级每 4K 图像消耗 2000 Token,medium 等级消耗 1120 Token,low 等级消耗 560 Token
response_format string 响应数据格式,可选值为 urlb64_jsonurl 格式返回的图像链接有效期为 60 分钟,仅对 DALL-E 系列模型生效;b64_json 格式返回 Base64 编码的图像数据,无有效期限制,适合直接嵌入应用或存储到本地,是 GPT-Image 系列模型的推荐格式
size string 生成图像的分辨率,默认值为 auto,即与原始图像分辨率保持一致。支持的取值包括 1024x10241536x10242048x20484096x4096 等,其中 4096x4096 仅对 gpt-image-2-all 生效
timeout integer 请求超时时间,单位为毫秒,建议设置范围为 30000~60000(即 30~60 秒)。图像生成属于计算密集型任务,4K 分辨率图像的平均生成耗时约 15 秒,设置合理的超时时间可避免因网络波动导致的请求失败

需要特别注意的是,image 参数的格式要求来自参考资料,prompt 的长度限制依据参考资料,mask 的格式约束参考自资料,model 的可选值来自资料,n 的取值范围参考资料,quality 的等级划分与 Token 消耗对应关系来自资料,response_format 的选项说明来自资料,size 的支持分辨率来自资料,timeout 的建议范围来自资料。

4.2.4 请求示例

以下示例展示了不同开发场景下的调用方式,所有示例均已适配 6AI 网关的配置要求:

cURL(基础编辑场景)

复制代码
curl --location -g --request POST 'https://api.6ai.chat/v1/images/edits' \\

\--header 'Authorization: Bearer YOUR\_API\_KEY' \\

\--form 'image=@"input\_image.png"' \\

\--form 'mask=@"mask.png"' \\

\--form 'prompt="将图像中间的黑色猫替换为白色的波斯猫,保持背景的沙发和地毯不变"' \\

\--form 'model="gpt-image-2-all"' \\

\--form 'n="1"' \\

\--form 'quality="high"' \\

\--form 'response\_format="b64\_json"' \\

\--form 'size="2048x2048"'

上述示例中,imagemask 需替换为本地实际文件路径,YOUR_API_KEY 需替换为控制台生成的真实密钥。该请求会生成一张 2048×2048 分辨率的图像,将原图中蒙版标记的黑色猫替换为白色波斯猫,返回 Base64 编码的图像数据(46)

Python(多图融合场景)

使用 OpenAI 官方 SDK 调用时,需先安装依赖包:

复制代码
pip install openai>=1.0.0

调用代码示例:

复制代码
from openai import OpenAI

import base64

import os

\# 初始化 OpenAI 客户端,指定 6AI 网关的 Base URL

client = OpenAI(

    base\_url="https://api.6ai.chat",

    api\_key="YOUR\_API\_KEY"

)

\# 定义输入图像路径,支持同时上传多张图像进行融合

image\_paths = \["image1.jpg", "image2.jpg"]

images = \[open(path, "rb") for path in image\_paths]

\# 调用图像编辑接口

response = client.images.edit(

    image=images,  # 多图输入,实现图像融合

    prompt="将两张图像的场景融合,保持第一张图像的人物和第二张图像的背景风格",

    model="gpt-image-2-all",

    n=1,

    size="2048x2048",

    response\_format="b64\_json"

)

\# 处理响应结果,将 Base64 数据保存为图像文件

image\_data = response.data\[0].b64\_json

image\_bytes = base64.b64decode(image\_data)

output\_path = "merged\_image.jpg"

with open(output\_path, "wb") as f:

    f.write(image\_bytes)

print(f"融合后的图像已保存至 {output\_path}")

该示例展示了多图融合的高级场景,通过上传两张图像并结合提示词,模型可生成同时包含两张图像元素的新图像。代码中使用的 openai 版本需≥1.0.0,以确保对多图输入的支持。

Node.js(无蒙版编辑场景)

使用 Axios 库调用时,需先安装依赖包:

复制代码
npm install axios form-data

调用代码示例:

复制代码
const axios = require('axios');

const FormData = require('form-data');

const fs = require('fs');

// 初始化请求参数

const form = new FormData();

form.append('image', fs.createReadStream('input\_image.jpg'));

form.append('prompt', '将图像中的红色花朵替换为蓝色的郁金香,保持其他元素不变');

form.append('model', 'gpt-image-2-all');

form.append('n', '1');

form.append('size', '1536x1024');

form.append('response\_format', 'b64\_json');

// 发送 POST 请求到 6AI 网关

axios.post('https://api.6ai.chat/v1/images/edits', form, {

    headers: {

        ...form.getHeaders(),

        'Authorization': 'Bearer YOUR\_API\_KEY'

    },

    timeout: 60000  // 设置 60 秒超时

})

.then(response => {

    // 处理响应结果,保存 Base64 图像数据

    const imageData = response.data.data\[0].b64\_json;

    const imageBuffer = Buffer.from(imageData, 'base64');

    fs.writeFileSync('edited\_image.jpg', imageBuffer);

    console.log('编辑后的图像已保存为 edited\_image.jpg');

})

.catch(error => {

    // 错误处理,打印详细错误信息

    console.error('请求失败:', error.response ? error.response.data : error.message);

});

该示例展示了无蒙版的编辑场景,模型会根据提示词自动识别需要修改的区域。代码中设置了 60 秒的超时时间,以适配大分辨率图像的生成需求。

4.3 响应格式

接口响应为 JSON 格式,包含请求状态、生成结果与资源消耗统计,典型成功响应如下:

复制代码
{

  "created": 1713592345,  // Unix 时间戳,记录请求创建时间

  "data": \[

    {

      "b64\_json": "base64\_encoded\_image\_data",  // Base64 编码的图像数据

      "revised\_prompt": "将图像中间的黑色猫替换为白色的波斯猫,保持背景的沙发和地毯不变"  // 模型优化后的提示词

    }

  ],

  "usage": {

    "prompt\_tokens": 120,  // 提示词消耗的 Token 数量

    "total\_tokens": 2120,  // 总消耗 Token 数量(提示词 Token + 图像生成 Token)

    "image\_tokens": 2000   // 图像生成消耗的 Token 数量(与质量等级和分辨率正相关)

  }

}

各字段的具体说明如下:

  • created:Unix 时间戳,标识请求的创建时间,可用于日志记录与请求追踪;

  • data:数组类型,包含生成的图像结果,每个元素对应一张图像。若 response_formatb64_json,则包含 b64_json 字段;若为 url,则包含 url 字段。revised_prompt 是模型对输入提示词的优化版本,通常更清晰、具体,可用于后续请求的参考;

  • usage:对象类型,记录 Token 消耗情况,可用于成本核算与配额监控。其中 prompt_tokens 是提示词解析消耗的 Token,image_tokens 是图像生成消耗的 Token,total_tokens 为两者之和。

4.4 错误处理

调用接口时可能返回以下典型错误,需根据错误类型进行针对性排查:

  • 400 Bad Request:请求参数错误,可能的原因包括图像格式不支持(如上传 BMP 格式文件)、图像大小超过 25MB、蒙版未包含 Alpha 通道、提示词长度超过 32000 字符等。此时需检查请求参数是否符合文档要求,例如将图像格式转换为 PNG/WEBP/JPG,或压缩图像大小;

  • 401 Unauthorized :API Key 无效或缺失,可能的原因包括密钥格式错误(如缺少 Bearer 前缀)、密钥已过期、密钥被冻结。此时需检查 Authorization 请求头的格式,或登录控制台重新生成密钥;

  • 403 Forbidden:无模型调用权限,可能是未开通 GPT-Image-2-All 的使用权限,或账号余额不足。此时需登录控制台的 "模型管理" 页面确认权限状态,或完成充值操作;

  • 429 Too Many Requests:请求频率或配额超限,可能是 RPM(每分钟请求数)或 TPM(每分钟 Token 数)超过限制。此时需降低请求频率,或登录控制台申请提升配额;

  • 500 Internal Server Error:网关内部错误,通常是临时的服务波动。此时可等待 1~2 分钟后重试,若多次重试仍失败,需联系 6AI 网关的技术支持团队。

5. 异图像创建 (Image Generation) 接口对接

5.1 功能描述

该接口用于通过文本提示或参考图像生成新图像,支持 "文生图" 和 "图生图" 两种核心模式,典型应用场景包括:

  • 电商商品图生成:根据商品描述生成不同风格的展示图;

  • 游戏素材创作:生成角色立绘、场景地图或道具图标;

  • 创意内容生产:生成海报、插画或短视频封面。

与图像编辑接口不同,异图像创建接口无需依赖已有图像(文生图模式),或仅需参考图像(图生图模式),更适合从零开始的创作场景。

5.2 请求规范

5.2.1 接口端点

POST https://api.6ai.chat/v1/images/generations

5.2.2 鉴权方式

与图像编辑接口完全一致,请求必须包含 Authorization 头,格式为 Bearer YOUR_API_KEY,缺失或格式错误会直接返回 401 Unauthorized 错误。

5.2.3 请求参数
参数名 类型 是否必填 描述
prompt string 描述生成内容的自然语言提示,最大长度为 32000 字符。提示词越具体,模型生成的结果越精准,建议包含风格、场景、元素等细节,例如 "生成一张赛博朋克风格的城市夜景,天空中有飞行汽车,街道两侧是霓虹灯广告牌,整体色调为蓝紫色"
image 文件或文件数组 参考图像文件,支持 PNG、WEBP、JPG 格式,单张图像大小不超过 25MB。若上传多个文件,最多支持 16 张,模型会融合所有参考图像的元素与风格生成新图像
model string 要使用的模型名称,默认为 gpt-image-1,指定为 gpt-image-2-all 可启用 4K 分辨率、文字渲染优化等高级功能
n integer 要生成的图像数量,取值范围为 1~10,默认值为 1。生成数量越多,单轮请求的耗时会相应增加,建议根据实际需求调整
quality string 图像质量等级,仅对 gpt-image-2-all 生效,可选值为 highmediumlow,默认值为 high。不同质量等级对应不同的 Token 消耗:high 等级每 4K 图像消耗 2000 Token,medium 等级消耗 1120 Token,low 等级消耗 560 Token
response_format string 响应数据格式,可选值为 urlb64_jsonurl 格式返回的图像链接有效期为 60 分钟,仅对 DALL-E 系列模型生效;b64_json 格式返回 Base64 编码的图像数据,无有效期限制,适合直接嵌入应用或存储到本地,是 GPT-Image 系列模型的推荐格式
size string 生成图像的分辨率,默认值为 1024x1024。支持的取值包括 1024x10241536x10242048x20484096x4096 等,其中 4096x4096 仅对 gpt-image-2-all 生效
timeout integer 请求超时时间,单位为毫秒,建议设置范围为 30000~60000(即 30~60 秒)。图像生成属于计算密集型任务,4K 分辨率图像的平均生成耗时约 15 秒,设置合理的超时时间可避免因网络波动导致的请求失败

需要特别注意的是,prompt 的长度限制依据参考资料,image 的格式要求来自参考资料,model 的可选值来自资料,n 的取值范围参考资料,quality 的等级划分与 Token 消耗对应关系来自资料,response_format 的选项说明来自资料,size 的支持分辨率来自资料,timeout 的建议范围来自资料。

5.2.4 请求示例

以下示例展示了不同生成模式下的调用方式:

cURL(文生图模式)

复制代码
curl --location -g --request POST 'https://api.6ai.chat/v1/images/generations' \\

\--header 'Authorization: Bearer YOUR\_API\_KEY' \\

\--header 'Content-Type: application/json' \\

\--data-raw '{

    "prompt": "生成一张赛博朋克风格的城市夜景,天空中有飞行汽车,街道两侧是霓虹灯广告牌,整体色调为蓝紫色",

    "model": "gpt-image-2-all",

    "n": 1,

    "quality": "high",

    "response\_format": "b64\_json",

    "size": "4096x2160"

}'

该请求会生成一张 4096×2160 分辨率的赛博朋克风格城市夜景图,返回 Base64 编码的图像数据。由于使用了 gpt-image-2-all 模型和 high 质量等级,单轮请求消耗 2000 Token。

Python(图生图模式)

复制代码
from openai import OpenAI

import base64

import os

\# 初始化 OpenAI 客户端,指定 6AI 网关的 Base URL

client = OpenAI(

    base\_url="https://api.6ai.chat",

    api\_key="YOUR\_API\_KEY"

)

\# 调用图像生成接口(图生图模式)

response = client.images.generate(

    image=open("reference\_image.jpg", "rb"),  # 参考图像

    prompt="基于参考图像的风格,生成一张未来城市的街景图",

    model="gpt-image-2-all",

    n=1,

    size="2048x2048",

    response\_format="b64\_json"

)

\# 处理响应结果,保存生成的图像

image\_data = response.data\[0].b64\_json

image\_bytes = base64.b64decode(image\_data)

output\_path = "generated\_image.jpg"

with open(output\_path, "wb") as f:

    f.write(image\_bytes)

print(f"生成的图像已保存至 {output\_path}")

该示例展示了图生图模式的调用方式,模型会参考输入图像的风格生成新图像。代码中使用的 openai 版本需≥1.0.0,以确保对参考图像输入的支持。

Node.js(多参考图模式)

复制代码
const axios = require('axios');

const FormData = require('form-data');

const fs = require('fs');

// 初始化请求参数,上传两张参考图像

const form = new FormData();

form.append('image', fs.createReadStream('reference1.jpg'));

form.append('image', fs.createReadStream('reference2.jpg'));

form.append('prompt', '融合两张参考图像的风格,生成一张新的风景图');

form.append('model', 'gpt-image-2-all');

form.append('n', '1');

form.append('size', '2048x2048');

form.append('response\_format', 'b64\_json');

// 发送 POST 请求到 6AI 网关

axios.post('https://api.6ai.chat/v1/images/generations', form, {

    headers: {

        ...form.getHeaders(),

        'Authorization': 'Bearer YOUR\_API\_KEY'

    },

    timeout: 60000  // 设置 60 秒超时

})

.then(response => {

    // 处理响应结果,保存生成的图像

    const imageData = response.data.data\[0].b64\_json;

    const imageBuffer = Buffer.from(imageData, 'base64');

    fs.writeFileSync('merged\_generated\_image.jpg', imageBuffer);

    console.log('生成的图像已保存为 merged\_generated\_image.jpg');

})

.catch(error => {

    // 错误处理,打印详细错误信息

    console.error('请求失败:', error.response ? error.response.data : error.message);

});

该示例展示了多参考图模式的调用方式,模型会融合两张参考图像的风格生成新图像。代码中设置了 60 秒的超时时间,以适配大分辨率图像的生成需求。

5.3 响应格式

接口响应格式与图像编辑接口完全一致,包含 createddatausage 三个核心字段:

复制代码
{

  "created": 1713592345,  // Unix 时间戳,记录请求创建时间

  "data": \[

    {

      "b64\_json": "base64\_encoded\_image\_data",  // Base64 编码的图像数据

      "revised\_prompt": "基于参考图像的风格,生成一张未来城市的街景图"  // 模型优化后的提示词

    }

  ],

  "usage": {

    "prompt\_tokens": 80,  // 提示词消耗的 Token 数量

    "total\_tokens": 2080,  // 总消耗 Token 数量(提示词 Token + 图像生成 Token)

    "image\_tokens": 2000   // 图像生成消耗的 Token 数量

  }

}

各字段的具体说明可参考 4.3 节的响应格式说明。

5.4 错误处理

与图像编辑接口的错误类型完全一致,需根据错误码进行针对性排查:

  • 400 Bad Request:请求参数错误,可能的原因包括提示词长度超过 32000 字符、图像格式不支持、图像大小超过 25MB 等。此时需检查请求参数是否符合文档要求;

  • 401 Unauthorized :API Key 无效或缺失,需检查 Authorization 请求头的格式,或登录控制台重新生成密钥;

  • 403 Forbidden:无模型调用权限,需登录控制台的 "模型管理" 页面确认权限状态,或完成充值操作;

  • 429 Too Many Requests:请求频率或配额超限,需降低请求频率,或登录控制台申请提升配额;

  • 500 Internal Server Error:网关内部错误,可等待 1~2 分钟后重试,若多次重试仍失败,需联系 6AI 网关的技术支持团队。

6. 统一 API 规范与最佳实践

6.1 鉴权机制

所有请求必须通过 Authorization 请求头携带 API Key,格式为 Bearer YOUR_API_KEY,该字段是网关验证请求合法性的唯一凭证。

关于 API Key 的管理,需遵循以下最佳实践:

  • 密钥安全:API Key 仅在生成时显示,需立即保存至安全位置(如密码管理器),切勿提交至版本控制系统或公开分享。若密钥泄露,第三方可能会冒用您的账号调用接口产生费用,因此建议定期(如每 90 天)轮换密钥;

  • 权限范围:一个 API Key 可用于调用 6AI 网关支持的所有模型,包括文本模型与图像模型。若需分场景管控权限,可在控制台的 "令牌管理" 页面为不同场景创建独立的 API Key;

  • 有效期设置:生成 API Key 时可自定义有效期(支持 7/30/90 天或长期有效),短期场景建议设置较短有效期,长期场景建议每 90 天轮换一次密钥,以降低密钥泄露的风险。

6.2 通用参数约束

所有图像相关接口的公共参数需遵循以下约束:

参数名 约束说明
prompt 最大长度为 32000 字符,超过限制会触发 400 错误。提示词越具体,模型生成的结果越精准,建议包含风格、场景、元素等细节
image 仅支持 PNG、WEBP、JPG 格式,单张大小不超过 25MB,最多支持同时上传 16 张图像。若需上传大尺寸图像,建议先压缩至 25MB 以内
size 支持的分辨率包括 1024×1024、1536×1024、2048×2048、4096×4096 等,其中 4096×4096 仅对 gpt-image-2-all 生效。默认值为 auto(图像编辑接口)或 1024×1024(异图像创建接口)
quality 仅对 gpt-image-2-all 生效,可选值为 highmediumlow,默认值为 high。不同质量等级对应不同的 Token 消耗,需根据实际需求选择
response_format 推荐使用 b64_json 格式,无有效期限制,适合直接嵌入应用或存储到本地。url 格式仅对 DALL-E 系列模型生效,链接有效期为 60 分钟
timeout 建议设置范围为 30000~60000 毫秒(30~60 秒),避免因图像生成耗时较长导致的请求超时失败

6.3 错误码与返回格式

所有接口采用统一的错误码体系,错误响应格式如下:

复制代码
{

  "error": {

    "message": "具体错误信息,描述错误的原因",

    "type": "错误类型,如 invalid\_request\_error",

    "param": "错误对应的参数名(可选,如 image)",

    "code": "错误码,如 400"

  }

}

常见错误码及处理方案如下:

HTTP 状态码 错误码 错误信息 处理方案
400 invalid_request_error 图像格式不支持 / 提示词长度超过限制 / 蒙版未包含 Alpha 通道 检查图像格式是否为 PNG/WEBP/JPG,压缩图像大小至 25MB 以内,调整提示词长度至 32000 字符以内,确保蒙版包含 Alpha 通道
401 unauthorized API Key 无效 / 缺失 检查 Authorization 请求头格式是否正确,确认 API Key 是否有效,或登录控制台重新生成密钥
403 forbidden 无模型调用权限 / 账号余额不足 登录控制台的 "模型管理" 页面开通 GPT-Image-2-All 权限,或完成账号充值操作
429 rate_limit_exceeded 请求频率超过限制 / 配额不足 降低请求频率,或登录控制台申请提升 RPM/TPM 配额
500 internal_server_error 网关内部错误 等待 1~2 分钟后重试,若多次重试仍失败,联系 6AI 网关技术支持团队

6.4 配额与限制

GPT-Image-2-All 的配额限制与 OpenAI GPT-Image-2 官方标准完全一致,具体如下:

  • 请求频率限制:默认 RPM(每分钟请求数)为 6 次,TPM(每分钟 Token 数)为 10000 次。新用户注册后会自动获得基础配额,随着使用量和消费额的增加,配额会自动提升;

  • 图像生成数量限制:单轮请求最多生成 10 张图像,每日生成数量无明确上限,但会受限于 TPM 配额;

  • Token 消耗规则:根据图像质量和分辨率的不同,Token 消耗存在差异:

    • high 质量 + 4K 分辨率:2000 Token / 张;

    • medium 质量 + 2K 分辨率:1120 Token / 张;

    • low 质量 + 1K 分辨率:560 Token / 张。

新用户注册后可获得 0.2 美元的体验额度,足以支持约 20 次 4K 图像生成或 100 次 2K 图像编辑请求,具体额度以控制台显示为准。

7. 开发与调试指南

7.1 开发环境准备

为确保接口调用的稳定性与兼容性,需满足以下开发环境要求:

  • Python :推荐版本 3.8+,需安装 openai>=1.0.0requests>=2.31.0 依赖包。openai 官方 SDK 已封装了请求签名、参数校验等逻辑,是最便捷的调用方式;

  • Node.js :推荐版本 16+,需安装 axios>=1.6.0form-data>=4.0.0 依赖包。form-data 用于处理文件上传请求,axios 用于发送 HTTP 请求;

  • Java :推荐 JDK 11+,需引入 okhttp>=4.10.0 依赖包,用于处理 HTTP 请求与响应;

  • 调试工具:推荐使用 Postman 或 Apifox,可直观调试请求参数、查看响应结构与耗时链路,支持保存请求模板,便于后续测试与迭代。

7.2 对接流程

完整的对接流程分为以下 5 个步骤:

  1. 注册与实名认证:访问 6AI 网关注册页面完成账号注册,个人用户需提交身份证信息并完成人脸验证,企业用户需提交营业执照扫描件与授权委托书,实名认证是获取 API 密钥的必要前提;

  2. 获取 API 密钥:登录 6AI 网关后台,在左侧导航栏进入 "令牌" 页面,点击 "添加令牌" 生成专属 API Key。该密钥仅在生成时显示,需立即保存至安全位置;

  3. 开通模型权限:在网关控制台的 "模型管理" 页面,找到 "GPT-Image-2-All" 模型,点击 "开通权限"。新用户注册后可获得 0.2 美元的体验额度,具体额度以控制台显示为准;

  4. 接口调试 :使用 Postman 或 Apifox 发送测试请求,验证参数格式与响应结果。建议先使用低分辨率(如 1024×1024)和 low 质量等级进行测试,以降低 Token 消耗并快速验证接口可用性;

  5. 生产接入:将调试通过的代码集成到生产环境,设置合理的超时时间(30~60 秒)与重试机制,确保在网络波动或网关临时故障时能自动恢复。生产环境建议使用独立的 API Key,避免与测试环境共用。

7.3 常见问题排查

7.3.1 鉴权失败

现象:接口返回 401 Unauthorized 错误,错误信息为 "Invalid API Key"。

可能原因

  • API Key 格式错误,缺少 Bearer 前缀;

  • API Key 已过期或被冻结;

  • 请求头中未正确携带 Authorization 字段。

    解决方案

  • 检查 Authorization 请求头格式,确保为 Bearer YOUR_API_KEY

  • 登录控制台的 "令牌" 页面,确认 API Key 的状态是否有效;

  • 若密钥已过期,重新生成新的 API Key 并替换到请求中。

7.3.2 参数错误

现象:接口返回 400 Bad Request 错误,错误信息为 "Invalid parameter"。

可能原因

  • 图像格式不支持,如上传 BMP 格式文件;

  • 图像大小超过 25MB;

  • 提示词长度超过 32000 字符;

  • 蒙版未包含 Alpha 通道。

    解决方案

  • 将图像格式转换为 PNG/WEBP/JPG;

  • 使用图像压缩工具(如 TinyPNG)将图像大小压缩至 25MB 以内;

  • 调整提示词长度至 32000 字符以内,尽量精简冗余描述;

  • 使用图像编辑工具(如 Photoshop)为蒙版添加 Alpha 通道后重新上传。

7.3.3 请求超时

现象:接口返回 504 Gateway Timeout 错误,或客户端超时。

可能原因

  • 超时时间设置过短(如小于 30 秒);

  • 生成的图像分辨率过高(如 4K),导致处理时间过长;

  • 网络波动导致请求中断。

    解决方案

  • 将超时时间调整至 30~60 秒;

  • 对于 4K 分辨率的图像生成,可分批次生成,或降低质量等级;

  • 实现重试机制,对 504 错误自动重试 1~2 次,重试间隔建议设置为 5 秒。

7.3.4 配额超限

现象:接口返回 429 Too Many Requests 错误,错误信息为 "Rate limit exceeded"。

可能原因

  • RPM(每分钟请求数)超过限制;

  • TPM(每分钟 Token 数)超过限制;

  • 账号余额不足。

    解决方案

  • 降低请求频率,例如添加 1 秒的请求间隔;

  • 登录控制台的 "配额管理" 页面,申请提升 RPM/TPM 配额;

  • 若账号余额不足,完成充值操作。

8. 总结

本对接文档详细介绍了 GPT-Image-2-All 图像模型的 API 接口规范与使用方法,核心内容包括:

  • 模型定位与架构优势:基于 GPT-Image-2 架构,原生支持文本生成图像、图像编辑、图生图等全链路视觉创作能力,具备 4K 分辨率支持、强文字渲染能力与风格一致性等优势;

  • 接口规范:涵盖图像编辑(Edits)和异图像创建(Generations)两个核心接口的请求参数、示例代码与响应格式;

  • 统一规范:包括鉴权机制、通用参数约束、错误码体系与配额限制;

  • 开发指南:包括开发环境准备、对接流程与常见问题排查方案。

通过本文档,开发者可以快速接入 GPT-Image-2-All 模型,实现高效、稳定的视觉内容生成。

9. 附录

9.1 参考文档

相关推荐
輕華3 小时前
LSTM实战(上篇):微博情感分析——词表构建与数据集加载
人工智能·机器学习·lstm
大江东去浪淘尽千古风流人物4 小时前
【cuVSLAM】GPU 加速、多相机、实时视觉/视觉惯性 SLAM设计优势
c++·人工智能·数码相机·ubuntu·计算机视觉·augmented reality
Elastic 中国社区官方博客9 小时前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
chools9 小时前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
郝学胜-神的一滴10 小时前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
leobertlan10 小时前
好玩系列:用20元实现快乐保存器
android·人工智能·算法
笨笨饿10 小时前
#58_万能函数的构造方法:ReLU函数
数据结构·人工智能·stm32·单片机·硬件工程·学习方法
jr-create(•̀⌄•́)10 小时前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
冬奇Lab10 小时前
一天一个开源项目(第78篇):MiroFish - 用群体智能引擎预测未来
人工智能·开源·资讯