刚刚,OpenAI 最强图像生成 API 上线,一张图 1 毛 5!

【新智元导读】GPT-4o 之后,OpenAI 原生多模态图像生成模型 API 正式推出了,一张图低至 0.02 美元。新模型能够结合世界知识,生成更加符合上下文图像,质量更高,还支持多种功能自定义。

昨夜,OpenAI 发布全新图像生成模型 gpt-image-1,API 向所有开发者开放。

这一次,他们直接把每张图的成本打到几美分。

对于低、中、高质量的方形图像,生成大约花费 0.02 美元、0.07 美元、0.19 美元。

gpt-image-1 集成了三大核心功能:图像生成、图像编辑、图像变体(仅限 DALL·E 2)。

与 GPT-4o 图像生成不同,gpt-image-1 最大的特点,在于支持各种高级功能的定制。

比如,自定义输出图像的质量、尺寸、格式、压缩程度,甚至可选择是否需要透明背景,能够满足多样化创意需求。

它具备了强大的通用能力,不仅能够创作多种风格图片,还能精准遵循自定义需求。通过结合世界知识,生成更符合上下文的图像。

现在,你就可以在 playground 中使用 gpt-image-1 来快速迭代提示词和图像:

GPT-4o 上线掀起全网吉卜力风潮,并在发布首周全球 1.3 亿用户,创作了超 7 亿图片。

gpt-image-1 作为 OpenAI 全新一个原生多模态图像模型,随着 API 开放,将会在未来极大地释放人们创意。

效果一览

在官方 API 文档「探索」区,OpenAI 放出了许多 gpt-image-1 生成图片的 demo,效果非常惊艳。

接下来,就一睹为快吧。

一句话,让 gpt-image-1 展示出创建鳄梨酱所需的所有食材。

下面这张梦幻之境,可是用了一个「小作文」提示词才完成的。

再来看它创作的外星人 Glorptak,有着凝胶状身体,半透明发光,非常可爱。

对于模特、电商行业来说,gpt-image-1 将重塑创作方式。上传一张衣服图、一张人的照片,就能看到衣服上身的效果了。

橄榄油宣传图,也只需找一张背景图,gpt-image-1 瞬间完成 P 图。

更神奇的是,上传一张房屋设计平面图,gpt-image-1 就能将其变为 3D 效果,更加直观。

番茄酱广告,非常有视觉冲击力。

设计矿泉水的瓶身,也是多种风格拿捏。

生成超写实的 3D 图标,看着非常有质感。

gpt-image-1 还能生成粗线条手绘风格图解,为回针缝制法每一步配上了简洁的说明文字。

上传一张 CD 模板图,让 gpt-image-1 生成金属乐队黑胶唱片。

还有各种纹理的防止图案,也是非常有创意。

还有动画分镜脚本------马匹跳跃循环序列,gpt-image-1 可做到逐帧解剖要点。

上传独立流行音乐人的照片,一张演唱会门票直接设计好了。

自定义图像输出,精准创意

目前,OpenAI GPT Image API 提供了丰富的自定义选项,让开发者完全掌控输出效果。

  • 尺寸:支持多种分辨率,比如 1024x1024, 1024x1536

  • 质量:可选 low,medium,high 三种渲染质量

  • 格式:文件输出格式

  • 压缩:针对 JPEG 和 WebP 格式,可设置 0-100% 级别的压缩

  • 背景:透明或不透明

生成图像

通过图像生成端点,仅凭一段文本提示,即可生成令人惊叹的图像。

可设置参数 n ,一次可生成多张图像(默认情况下,API 返回单张图片)。

图像编辑

而图像编辑功能,可以让创意更进一步。通过图像编辑端点,你可以:

  • 直接编辑现有图片

  • 参考图像生成新图片:上传多张参考图像,然后生成新图

  • 局部编辑(inpainting):通过上传图像和蒙版,精准替换指定的区域

参考图像生成新图片

比如,上传四张礼品图片,生成一个包含所有礼品的精美礼物篮的图像。

使用蒙版编辑图像(局部编辑)

你可以上传一个蒙版来编辑图像,蒙版中的透明区域将被替换,而黑色区域保持不变。

OpenAI 建议,你可以使用提示来描述整个新图像,而不仅仅是被擦除的区域。

蒙版要求:

  1. 图像和蒙版需要格式一致,尺寸相同,大小不超过 25MB。

  2. 蒙版需包含 Alpha 通道,在图像编辑工具中保存蒙版时,务必勾选「保存 Alpha 通道」。

在自定义中,还需要注意的包括:

方形图片以标准质量生成的速度最快,默认大小是 1024x1024。

Image API 返回 base64 编码的图像数据,默认格式是 png ,但你也可以请求 jpeg 或 webp。

如果使用 jpeg 或 webp,还可以指定 output_compression 参数来控制压缩级别(0-100%)。例如, output_compression=50 就是把图像压缩 50%。

此外,gpt-image-1 支持透明背景。要启用透明度,需将 background 参数设置为 transparent。

模型对比

虽然 gpt-image-1 是目前 OpenAI 最强大的多模态模型,此前推出的 DALL·E 2 和 DALL·E 3 则是专为图像生成设计的模型,各有所长。

根据不同需求和场景,开发者可灵活从中选用这些模型 API。

gpt-image-1 使用同样是按 Token 计费,文本和图像的 Token 各有不同的价格:

  • 文本输入 Token:5 美元 / 百万 token

  • 图像输入 Token:10 美元 / 百万 token

  • 图像输出 Token:40 美元 / 百万 token

如前所述,在实际应用中,对于低、中和高质量的方形图片,每生成一张图像的费用大约分别为 0.02 美元、0.07 美元和 0.19 美元。

从创意到商业无限可能

OpenAI 全新 Image API 的推出,将为各行各业解锁更多创意魔法。

目前,创意工具、电商、教育、企业软件、游戏等行业的领先企业和初创公司,已经将图像生成集成到他们的产品和服务中。

Adobe 的创意工具,包括 Firefly 和 Express,将通过 gpt-image-1 为创作者提供选择和灵活性,方便他们实验不同的美学风格。

Figma 正在利用 gpt-image-1 从简单的提示词生成和编辑图像,使设计师能够快速探索创意并直接在 Figma 中进行视觉迭代。

HeyGen 正在使用 gpt-image-1 来增强头像创建,特别是在平台内改善头像编辑。

Photoroom 正在使用 gpt-image-1 帮助在线卖家从单一产品照片中瞬间创建工作室级别的视觉效果、生活场景和模特展示图。

此外,Canva 已将 gpt-image-1 集成到 Canva AI 和 Magic Studio 工具中,进一步扩展设计生成和编辑能力。

简单的草图,gpt-image-1 即可将其转化为精美图形元素。与此同时,它还支持高保真的视觉编辑,让 2.3 亿用户能够用全新方式将创意变为现实。

专为设计 logo 而生的 GoDaddy,通过集成 gpt-image-1,可以轻松创建编辑 Logo,去除背景并生成专业字体设计。

借助 GoDaddy Airo,创意者通过提示即可生成原创产品和品牌内容,并打造体现自身品牌个性的社交媒体和营销素材。

还有 HubSpot 通过 OpenAI 图像新模型,有望彻底革新客户制作高质量社交媒体、邮件营销以及落地页图片的方式,无需专业设计经验也能轻松实现。

Instacart 正在测试如何利用 API 生成用于菜谱和购物清单的图片,以提升用户体验。

创作个性化视频 invideo,在集成 gpt-image-1 后,将支持更强大的文本生成、精细化编辑控制和高级风格指导,进一步丰富了用户的视频创作体验。

参考资料:

openai.com/index/image...

相关推荐
山北雨夜漫步5 分钟前
机器学习 Day12 集成学习简单介绍
人工智能·机器学习·集成学习
nenchoumi31196 分钟前
LLM 论文精读(二)Training Compute-Optimal Large Language Models
论文阅读·人工智能·笔记·学习·语言模型·自然语言处理
新加坡内哥谈技术15 分钟前
软件工程的13条“定律”:从Hyrum定律到康威定律,再到Zawinski定律
人工智能
whaosoft-14322 分钟前
51c大模型~合集120
人工智能
逛逛GitHub41 分钟前
Cursor + MiniMax MCP 搞一个今日 AI 热点播报站
人工智能
riveting1 小时前
明远智睿2351开发板:性价比之选,赋能智能硬件创新
大数据·linux·图像处理·人工智能·智能硬件
数字供应链安全产品选型1 小时前
“多模态SCA+DevSecOps+SBOM风险情报预警 “数字供应链安全最佳管理体系!悬镜安全如何用AI守护万亿数字中国?
网络·人工智能·安全
攻城狮7号1 小时前
Python爬虫第18节-动态渲染页面抓取之Splash使用上篇
开发语言·人工智能·爬虫·python·python爬虫
白雪讲堂1 小时前
【白雪讲堂】GEO优化第7篇 -构建《推荐类》内容的结构化模板
大数据·人工智能·搜索引擎·geo
Oliverro1 小时前
嵌入式WebRTC音视频实时通话EasyRTC助力打造AIOT智能硬件实时通信新生态
网络·人工智能·音视频