penAI重磅发布GPT-4o文生图:免费、精准、媲美真实照片!

今天凌晨2点,OpenAI进行了一场重要的技术直播,正式发布基于GPT-4o模型的原生图像生成功能。这是ChatGPT在图像处理能力方向的一次革命性升级,不仅完全免费开放,更在图像质量和精准度上达到了前所未有的高度。

一、突破性的技术升级

相比此前依赖DALL·E的方案,新版本带来了全方位的升级:

  1. 原生图像生成
    • 基于GPT-4o多模态能力
    • 不再依赖独立的DALL·E模型
    • 支持更精确的文字渲染
  2. 超长提示词支持
    • 支持极其详细的场景描述
    • 可精确控制多达20个不同物体
    • 保持高度的画面一致性

复杂场景提示词的功能非常惊艳,给大家看一个例子:

详细的提示词描述,这就让生成的图片非常精准,这已经不是简单的说一句话来画图,而是提交了一份 PRD 了,比如 Prompt如下:

vbnet 复制代码
magnetic poetry on a fridge in a mid century home:
Line 1: "A picture"
Line 2: "is worth"
Line 3: "a thousand words,"
Line 4: "but sometimes"Large gap
Line 5: "in the right place"
Line 6: "can elevate"
Line 7: "its meaning."
The man is holding the words "a few" in his right hand and "words" in his left.

这个是用来生成一个冰箱上的字母贴的,可怕的是,这里精确的定义了每一行以及人物手中出现哪些字母。 不知道你发现没有手中拿着一个 words

  1. 革命性的文字渲染
    • 完美支持图像中的文字生成
    • 支持多语言文本显示
    • 文字排版自然精准

二、令人惊艳的新特性

GPT-4o的图像生成能力展现出多个突破性特征:

  1. 精准的指令遵循
    • 可精确定义每个细节
    • 支持复杂的场景布局
    • 保持高度的逻辑一致性

文字渲染部分给大家看一个例子,Prompt 如下

一个生成四格漫画的,可以精确定义每一格的具体内容

复制代码
制作一个包含四个面板的图像,并在边框周围留出一些空白:

一个小蜗牛在一个华丽的汽车展厅的柜台。销售员为了看到他,不得不将身体远远探过桌子。

特写镜头,蜗牛看起来非常严肃。他说:"我想要你最快的跑车......而且我希望你在车门、引擎盖和车顶上涂上大大的字母'S'。

"销售员挠着头。"嗯......我们可以这样做,但为什么要涂'S'呢?"

突然切换到一辆红色模糊的车在高速公路上疾驰。跑车上覆盖着巨大的'S'。人行道上的人们指着车大笑:"哇!看那辆S车!"
  1. 多轮对话式创作
    • 支持连续修改和优化
    • 保持角色形象一致性
    • 风格无缝切换

多轮对话支持例子:通过一只猫来一步步制作一个游戏的小例子,比如我们生成了一只猫:

现在,"给这只猫一顶侦探帽和一副单片眼镜":

接下来,"将这个创意转化为一款采用 4K 游戏引擎制作的 AAA 级视频游戏,并加入一些用户界面元素作为画面叠加层,这些元素源自一款神秘的 RPG 游戏。在画面顶部,我们可以看到角色的生命条和迷你地图;而在底部,则可以看到各种法术图标。这些界面元素风格统一且具有清晰的图标设计。"

将画面更新为一幅 16:9 比例的风景图,并在用户界面上添加更多法术图标。调整视角,以第三人称视角展示这只猫漫步于一座蒸汽朋克风格的曼哈顿城中。通过精心设计的光影对比和冷色调色彩,打造出如顶级 AAA 游戏般令人惊艳的视觉效果。

最后一步:当玩家打开菜单时,创建用户界面,我们看到猫的角色档案,包括他的装备,以及另一页显示活跃任务(这应该与我们在图像中描述的宇宙世界构建相关联)。

到这里一个游戏的场景就生成了,不仅支持了复杂的多轮图片生成和修改,更关键的是在多轮中保持了图像的一致性,这非常难得!

  1. 真实感提升
    • 光影效果自然
    • 细节表现丰富
    • 几乎无法分辨真假

光影效果也很不错,在看一个Prompt:"现在从一个人的视角看,他在华盛顿广场公园的一张圆形咖啡桌上,在笔记本上画了这个图。"

尤其是生成图像的逼真度,肉眼几乎看不出任何破绽,在精细度、细节和文本遵循方面非常出色,可以媲美甚至在某些功能超过该领域的头部平台 Midjourney

三、实用功能大升级

新版本带来了多个实用功能:

  1. 图像PPT功能
    • 支持教育内容可视化
    • 自动生成知识图解
    • 适合各类学科教学
  2. 风格转换能力
    • 支持照片风格切换
    • 草图转真实图像
    • 艺术作品风格迁移
  3. 商业应用支持
    • 广告创意生成
    • 产品展示设计
    • 品牌视觉定制

四、突破性的应用场景

这次更新开启了多个创新应用方向:

  1. 教育领域
    • 知识可视化
    • 教学内容生成
    • 互动学习材料
  2. 设计行业
    • 快速原型设计
    • 广告创意制作
    • 品牌视觉开发
  3. 内容创作
    • 漫画制作
    • 游戏场景设计
    • 视觉故事创作

五、部署使用与可用性

从即日起,新功能已全面开放:

用户覆盖

  • 向所有Plus用户开放
  • 向所有Free用户开放
  • API即将推出

使用方式

  1. ChatGPT中直接使用

进入chatGPT官网,于之前问答区别,选择图片

然后直接对话即可

chatgpt 官网地址:chatgpt.com/

  1. 通过Sora平台访问
  2. 支持EnterpriseEdu版本

结语

OpenAI首席执行官Sam Altman表示:"这是一项令人难以置信的产品。我们相信这代表着AI创作自由的新高度,期待看到由此激发的创造力。"这次更新不仅展现了OpenAI在图像生成领域的技术实力,更预示着AI视觉创作的新纪元即将到来。

相关推荐
uhakadotcom2 分钟前
Meta Horizon OS 开发工具:打造更好的 MR/VR 体验
javascript·后端·面试
程序员小刚16 分钟前
基于SpringBoot + Vue 的考勤管理系统
vue.js·spring boot·后端
星辰大海的精灵31 分钟前
SpringAI轻松构建MCP Client-Server架构
人工智能·后端·架构
uhakadotcom37 分钟前
刚刚发布的React 19.1提供了什么新能力?
前端·javascript·面试
uhakadotcom38 分钟前
Rust中的reqwest库:轻松实现HTTP请求
后端·面试·github
uhakadotcom1 小时前
Expo 简介:跨平台移动应用开发的强大工具
前端·javascript·面试
markzzw1 小时前
浏览器插件钱包(一) - 区块链世界的入口
前端·web3·区块链
uhakadotcom1 小时前
Apache APISIX 简介与实践
后端·面试·github
Asthenia04121 小时前
面试官问“epoll的原理”,我该怎么回答?
后端
uhakadotcom1 小时前
Kong Gateway 简介与实践
后端·面试·github