今天凌晨2点,OpenAI
进行了一场重要的技术直播,正式发布基于GPT-4o
模型的原生图像生成功能。这是ChatGPT
在图像处理能力方向的一次革命性升级,不仅完全免费开放,更在图像质量和精准度上达到了前所未有的高度。
一、突破性的技术升级
相比此前依赖DALL·E
的方案,新版本带来了全方位的升级:
- 原生图像生成:
-
- 基于
GPT-4o
多模态能力 - 不再依赖独立的
DALL·E
模型 - 支持更精确的文字渲染
- 基于
- 超长提示词支持:
-
- 支持极其详细的场景描述
- 可精确控制多达20个不同物体
- 保持高度的画面一致性
复杂场景提示词的功能非常惊艳,给大家看一个例子:
详细的提示词描述,这就让生成的图片非常精准,这已经不是简单的说一句话来画图,而是提交了一份 PRD
了,比如 Prompt
如下:
vbnet
magnetic poetry on a fridge in a mid century home:
Line 1: "A picture"
Line 2: "is worth"
Line 3: "a thousand words,"
Line 4: "but sometimes"Large gap
Line 5: "in the right place"
Line 6: "can elevate"
Line 7: "its meaning."
The man is holding the words "a few" in his right hand and "words" in his left.
这个是用来生成一个冰箱上的字母贴的,可怕的是,这里精确的定义了每一行以及人物手中出现哪些字母。 不知道你发现没有手中拿着一个
words
。
- 革命性的文字渲染:
-
- 完美支持图像中的文字生成
- 支持多语言文本显示
- 文字排版自然精准
二、令人惊艳的新特性
GPT-4o
的图像生成能力展现出多个突破性特征:
- 精准的指令遵循:
-
- 可精确定义每个细节
- 支持复杂的场景布局
- 保持高度的逻辑一致性
文字渲染部分给大家看一个例子,Prompt
如下
一个生成四格漫画的,可以精确定义每一格的具体内容
制作一个包含四个面板的图像,并在边框周围留出一些空白:
一个小蜗牛在一个华丽的汽车展厅的柜台。销售员为了看到他,不得不将身体远远探过桌子。
特写镜头,蜗牛看起来非常严肃。他说:"我想要你最快的跑车......而且我希望你在车门、引擎盖和车顶上涂上大大的字母'S'。
"销售员挠着头。"嗯......我们可以这样做,但为什么要涂'S'呢?"
突然切换到一辆红色模糊的车在高速公路上疾驰。跑车上覆盖着巨大的'S'。人行道上的人们指着车大笑:"哇!看那辆S车!"
- 多轮对话式创作:
-
- 支持连续修改和优化
- 保持角色形象一致性
- 风格无缝切换
多轮对话支持例子:通过一只猫来一步步制作一个游戏的小例子,比如我们生成了一只猫:
现在,"给这只猫一顶侦探帽和一副单片眼镜":
接下来,"将这个创意转化为一款采用 4K 游戏引擎制作的 AAA 级视频游戏,并加入一些用户界面元素作为画面叠加层,这些元素源自一款神秘的 RPG 游戏。在画面顶部,我们可以看到角色的生命条和迷你地图;而在底部,则可以看到各种法术图标。这些界面元素风格统一且具有清晰的图标设计。"
将画面更新为一幅 16:9 比例的风景图,并在用户界面上添加更多法术图标。调整视角,以第三人称视角展示这只猫漫步于一座蒸汽朋克风格的曼哈顿城中。通过精心设计的光影对比和冷色调色彩,打造出如顶级 AAA 游戏般令人惊艳的视觉效果。
最后一步:当玩家打开菜单时,创建用户界面,我们看到猫的角色档案,包括他的装备,以及另一页显示活跃任务(这应该与我们在图像中描述的宇宙世界构建相关联)。
到这里一个游戏的场景就生成了,不仅支持了复杂的多轮图片生成和修改,更关键的是在多轮中保持了图像的一致性,这非常难得!
- 真实感提升:
-
- 光影效果自然
- 细节表现丰富
- 几乎无法分辨真假
光影效果也很不错,在看一个Prompt
:"现在从一个人的视角看,他在华盛顿广场公园的一张圆形咖啡桌上,在笔记本上画了这个图。"
尤其是生成图像的逼真度,肉眼几乎看不出任何破绽,在精细度、细节和文本遵循方面非常出色,可以媲美甚至在某些功能超过该领域的头部平台 Midjourney
。
三、实用功能大升级
新版本带来了多个实用功能:
- 图像PPT功能:
-
- 支持教育内容可视化
- 自动生成知识图解
- 适合各类学科教学
- 风格转换能力:
-
- 支持照片风格切换
- 草图转真实图像
- 艺术作品风格迁移
- 商业应用支持:
-
- 广告创意生成
- 产品展示设计
- 品牌视觉定制
四、突破性的应用场景
这次更新开启了多个创新应用方向:
- 教育领域:
-
- 知识可视化
- 教学内容生成
- 互动学习材料
- 设计行业:
-
- 快速原型设计
- 广告创意制作
- 品牌视觉开发
- 内容创作:
-
- 漫画制作
- 游戏场景设计
- 视觉故事创作
五、部署使用与可用性
从即日起,新功能已全面开放:
用户覆盖:
- 向所有
Plus
用户开放 - 向所有
Free
用户开放 API
即将推出
使用方式:
- 在
ChatGPT
中直接使用
进入chatGPT官网,于之前问答区别,选择图片
然后直接对话即可
chatgpt 官网地址:chatgpt.com/
- 通过
Sora
平台访问 - 支持
Enterprise
和Edu
版本
结语
OpenAI
首席执行官Sam Altman
表示:"这是一项令人难以置信的产品。我们相信这代表着AI创作自由的新高度,期待看到由此激发的创造力。"这次更新不仅展现了OpenAI
在图像生成领域的技术实力,更预示着AI视觉创作的新纪元即将到来。