ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了

北京时间凌晨 3 点,直播准时开始,OpenAI 发布了 ChatGPT Images 2.0。

据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可直接使用的视觉内容。

似乎也正因为此,OpenAI 发布的官方博客内容还提供了两个版本(图像模式与经典模式),其中图像模式下的内容完全是由该模型生成的!

在博客中,OpenAI 表示:「图像是一种语言,而不是装饰。好的图像,就像好的句子一样,会进行选择、组织与呈现。它可以解释机制,营造氛围,验证想法,或构建论证。」

ChatGPT Images 2.0 模型在细致遵循指令方面实现了质的跃迁,能够准确放置与关联对象,并渲染高密度文本,同时支持多种宽高比生成。它在构图与视觉审美上的能力,使输出不再像「AI 生成」,而更像「有意设计」。

并且其在多语言环境下同样表现准确,并能利用扩展的视觉与世界知识为你补全细节,从而以更少提示词获得更智能的图像。

为应对最复杂的任务,Images 2.0 首次引入「思考能力」。在 ChatGPT 中选择 thinking 或 pro 模型时,Images 2.0 可以联网获取实时信息,从一个提示生成多张不同图像,并对自身输出进行复核。借助「思考」,模型能够承担从想法到图像之间更多的工作,尤其在准确性、时效性、一致性与视觉统一性至关重要时。

结合 OpenAI 推理模型的智能与对视觉世界的深刻理解,这一模型将图像生成从「渲染」提升为「策略性设计」,从工具进化为视觉系统,帮助人们将想法转化为可理解、可分享、可教学、可构建的成果。

该能力已从今日起向 ChatGPT、Codex 与 API 的所有用户开放。

更高的精度与控制力

Images 2.0 为图像创作带来了前所未有的具体性与还原度。它不仅能构思更复杂的图像,还能有效将其实现,能够严格遵循指令,保留关键细节,并渲染以往模型容易失真的精细元素:小文本、图标、UI 元素、高密度构图以及细微风格约束。在 API 中最高支持 2K 分辨率。结果不再是「差不多」,而是「可以直接使用」。

注意看,下面这张截图整体上其实是 Images 2.0 生成的!

更强的多语言能力

以往图像生成模型在英语及拉丁字母语言中表现更稳定,但在其他语言,尤其是复杂或密集文本时精度较低。

Images 2.0 突破了这一限制,在多语言理解上显著增强,尤其是在日语、韩语、中文、印地语与孟加拉语的文本渲染方面有明显提升。它不仅能正确生成非英语文本,还能保证语言表达自然流畅。

这不仅意味着翻译标签,而是让语言本身成为设计的一部分,从海报、说明图,到图解与漫画,都能实现视觉与语言的统一。这使模型具备更强的全球适用性,让用户能够在真实使用的语言环境中创作视觉内容。

在直播中,OpenAI 图像研究团队的成员陈博远展示了一个案例,他给出提示词:「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

结果生成的海报完全符合提示词,且在细节上也能够做到精准。

「它非常擅长遵循非常详细的指令,所以如果你有非常具体的品牌语言、设计美学 ------ 所有那些对创意工作至关重要的东西 ------ 你都可以使用 ChatGPT 来创建和完善你的想法,从而得到你想要的结果。」陈博远说道。

更成熟的风格表达与真实感

Images 2.0 在多种视觉风格上的还原度显著提升。它更擅长捕捉照片的关键特征,包括那些增强真实感的微小瑕疵,同时也能稳定呈现电影感画面、像素艺术、漫画等多种视觉语言,在纹理、光影、构图与细节上更一致。

因此,模型输出更贴近指定风格,而非近似模仿。这对于游戏原型设计、分镜制作、营销创意,以及特定媒介或类型的资产创作尤为有价值。

灵活的宽高比

新模型在输出形式上更灵活,支持从 3:1 到 1:3 的多种宽高比,可直接适配横幅、演示文稿、海报、手机界面、书签及社交媒体图形等不同场景。你可以在提示中指定宽高比,或通过预设选项将已有图像重新生成至新的尺寸。

下面展示了两个非常规宽高比的示例:

更强的现实世界理解

Images 2.0 引入了截至 2025 年 12 月的知识,使生成结果在相关性与语境准确性上更进一步。这对于说明图、教育图形与可视化总结尤为关键,因为在这些场景中,正确性与清晰度与美观同样重要。

其智能能力还体现在端到端任务处理上:整合信息、撰写内容,并以清晰结构、合理留白与良好视觉流进行排版。

视觉思考伙伴

在 ChatGPT 中启用 thinking 模型后,系统会在后台进行更深入的理解与执行。它可以联网检索信息,将上传材料转化为清晰的视觉说明,并在生成前对图像结构进行推理。

在这种模式下,Images 2.0 更像一个视觉思考伙伴,帮助你将初步概念推进为完整成品,大幅降低工作量。

它还支持一次生成多张不同图像,这在 ChatGPT 图像生成中尚属首次。这使得诸如多页漫画、整屋设计方案、系列海报或多语言多尺寸社交素材等工作流变得高效可行。

你无需逐张生成再手动拼接,只需一次请求,即可获得最多八张在角色与元素上保持一致、且具有连续性的输出。

在 Codex 中使用图像生成

Images 能力被整合进 Codex,使视觉创作、迭代与交付在同一工作空间内完成,拓展了其在设计、营销、产品、销售及学习等领域的应用。

例如,你可以快速生成多种 UI 方向与原型,比较方案,并将最佳设计直接转化为产品或网页体验,无需离开 Codex。通过 ChatGPT 订阅即可使用,无需额外 API 密钥。

通过 API 将图像能力嵌入产品

开发者与企业可通过 gpt-image-2 API 将这些能力集成进自身产品,在现有工作流中加入高质量图像生成与编辑能力。

凭借更强的文本渲染、多语言生成、指令遵循能力,以及更多输出格式与宽高比支持,API 更易于构建真实业务场景中的图像工作流,例如本地化广告、信息图、说明图、教育内容、设计工具、创意平台及网页生成产品。

局限性

OpenAI 也在博客中提到了该模型的局限性:尽管 Images 2.0 是重要进步,但仍不完美。对于需要完整物理世界建模的任务(如折纸教程、魔方等复杂结构),以及隐藏面、倾斜面或反向表面的精确细节,模型仍可能表现不足。

极高密度或重复性细节(如细沙)也可能带来挑战。标签与图示在涉及精确箭头或部件标注时,仍建议人工校对。

这些都是未来改进的重要方向。

在 API 中,超过 2K 的输出目前仍处于测试阶段,可能出现不稳定情况。

定价与可用性

ChatGPT Images 2.0 今日起已向所有 ChatGPT 与 Codex 用户开放。具备「思考」能力的高级输出对 ChatGPT Plus、Pro 与 Business 用户提供。

gpt-image-2 模型已在 API 中提供,价格根据图像质量与分辨率有所不同。

OpenAI 也在官网上线了大量案例,感兴趣的读者可自行前往查看。

我们也进行了一些简单测试,比如让其生成了一张中国高考数学试卷第 2 页,看着还行:

实测中,我们可以在页面上看到 ChatGPT Images 2.0 生成一张图片通常会经历多个步骤:创建→打个草稿→生成初稿→搭建场景→打磨细节→收尾→最后润色→最后微调。

接下来我们继续,「生成一张《将敬酒》繁体中文草书书法作品,宽高比 3:1,内容是李白的《将敬酒》全文。落款是 ChatGPT Images 2.0」:

不过很显然该模型并没有生成完整,且也明显不是草书。

最后来一页闪电五连鞭的功夫招式图解说明:

还挺有趣。

整体体验下来,我们感觉 ChatGPT Images 2.0 确实比目前的 Nano Banana 2 强大不少;看看接下来谷歌如何接招。

你试过 ChatGPT Images 2.0 了吗?感觉如何?

相关推荐
财经资讯数据_灵砚智能1 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月13日
大数据·人工智能·python·信息可视化·自然语言处理
零壹AI实验室8 分钟前
用AI 10分钟搭建一个监控系统:Prometheus + Grafana 实战
人工智能·grafana·prometheus
志栋智能10 分钟前
超自动化巡检:量化运维成效的标尺
运维·网络·人工智能·自动化
AI科技星11 分钟前
紫金山天文台与6G 超导太赫兹实验对比【乖乖数学】
人工智能·线性代数·机器学习·量子计算·agi
摩尔线程11 分钟前
摩尔线程携手紫光计算机发布《语音识别全栈国产化技术实践白皮书》
人工智能·语音识别·摩尔线程
字节跳动开源12 分钟前
局中局!给 Agent 装上 OpenViking,它们竟然学会了“记仇”和“伪装”?
人工智能·开源·llm
Exploring15 分钟前
通过 Vibe Coding,我开发的第一款鸿蒙 App 上架了,欢迎大家下载体验
人工智能
杀生丸学AI18 分钟前
【VALSE 2026】AI领域年度重要进展
人工智能
沪漂阿龙26 分钟前
面试题:文本表示方法详解——One-hot、Word2Vec、上下文表示、BERT词向量全解析(NLP基础高频考点)
人工智能·神经网络·自然语言处理·bert·word2vec
Luminbox紫创测控30 分钟前
氙灯太阳光模拟器加速老化测试
人工智能·测试工具·测试标准