我从 Nano Banana 回来了,GPT-Image-2 真的太强了

大家好,我是卡卡。

这两天不管在社区还是新闻,几乎全被 GPT-Image-2 刷屏了。超强的功能直接把 Nano Banana 甩出一条街,是真的牛啊。

昨晚 OpenAI 放了什么

就在前天凌晨,OpenAI 正式推出 GPT-Image-2,面向所有 ChatGPT 和 Codex 用户开放。带思考功能的图片生成已向 ChatGPT Plus、Pro 和 Business 用户开放(企业版即将推出)。移动端记得更新到最新版本,底层模型就是 gpt-image-2。

发布之后直接登顶 T2I Arena 第一,ELO 1512,第二名 Nano Banana 2 才 1271,差了 241 分,断崖式领先真的不是说说而已。

其中我觉得最强的地方在于:根本不需要参考图,也不用写严谨复杂的提示词,就能生成以假乱真的截图、海报、广告设计。以前设计师要花半天的东西,现在一句话就出来了,感觉设计师的Vibe Coding时代真的要来了。


我从 Nano Banana 叛逃回来了

讲真的说,我一直是 ChatGPT 的忠实用户,但就是生图这块真的是一用一个不吱声,之前我用 ChatGPT 生图,提示词尽管已经写得很完善了,但它就是 get 不到我想要的效果,中文支持更是极其不友好,不是乱码就是错别字,生图十次找不到一次满意的。

后来 Nano Banana Pro 如日中天,实在扛不住它的强大,生图就全换过去了。

没想到这次 GPT-Image-2 发布直接给了我一个大惊喜。不仅排名上完虐 Nano Banana Pro,实际体验也是,Nano Banana Pro 现在就是弟弟啊。

最让我惊喜的是中文支持。玩了一天,几乎没出现过乱码,这对之前被 ChatGPT 生图伤透心的我来说,真的太牛了。而且生成的图片完全不带 AI 味道,几乎以假乱真,你要不说我真的分辨不出来是 AI 生成的。

看上面这张图,能看出来是 GPT-Image-2 生成的吗?能感觉出来是 AI 图吗?

要不是我们都知道 Anthropic 根本不可能把 Claude 开放给中国用户,这张图真的要把我惊到了------推文格式、中文排版、配图风格,全都对,一点 AI 味都没有。是不是非常厉害?


它到底强在哪

官方说 ChatGPT Images 2.0 是 OpenAI 首个具备「思考」能力的图像模型,中译中就是:以假乱真不费劲,是真·生产力工具。

GPT-Image-2 底层跑的是 GPT-5.4,原生多模态,不是像以前那样把扩散模型外挂上去。所以它理解我们说什么的能力,本来就比老模型强一个档次。

Thinking 模式开启之后,它可以联网搜索、自己生成多张变体、还会自检输出。我们给一个模糊的需求,它会自己想清楚再动手,而不是直接硬生成一张不知所云的图。这也是为啥我们不用写很复杂的提示词它也能出好图的原因。

还有几个细节值得说:

  • 分辨率最高支持 4096×4096,生成速度比上一代快约 2 倍
  • 修复了 gpt-image-1.5 一直被吐槽的黄色偏色问题,颜色终于正常了
  • 知识截止日期是 2025 年 12 月,涉及最近新闻的 prompt 可能会有偏差,这个要留意

价格还低的离谱

更离谱的是价格,比我之前用的 Nano Banana Pro 便宜很多,Low 和 Medium 质量甚至比上一代 GPT Image 1 还便宜。如图:

日常生图用 Medium 质量完全够用,一张才 $0.053,随便玩。


实战场景一:电影海报/剧照

我第一个测试的场景就是电影海报,不过我稍微恶搞了一下------让它生成「林黛玉打虎」的古装动作片剧照。

这张图出来的时候我真的愣了一下,太完美了。水墨山水背景、古风毛笔字体、「不让须眉·柔中带刚」的副标题,还有左下角的「红楼一梦,谁解其中味」,全都对上了。人物动作大气、老虎细节到位,整体看起来艺术感十足,完全不像 AI 生的,更像是真的电影宣发团队做出来的海报。

就一句提示词,没有参考图,没有复杂参数,出来就是这个效果。

这种场景以前要么找设计师,要么自己 PS 半天,现在真的一句话搞定。


实战场景二:一句话生成知识卡片

同样的提示词,我分别用 GPT-Image-2 和 Nano Banana Pro 各生成了一张。

↑ GPT-Image-2 生成的

↑ Nano Banana Pro 生成的

两张放在一起差距还是看得出来的。GPT-Image-2 那张黑板质感、中文字体、排版层次都更好,看着像认真做过的。Nano Banana Pro 那张感觉就是把内容堆上去了,颜色也有点乱。

速度上 GPT-Image-2 也快不少,等 Nano Banana Pro 生成的那段时间,GPT-Image-2 都已经出图了。

做技术分享、写公众号的朋友真的可以试试,以前搞这种配图要在 Canva 里折腾半天,现在一句话的事。


实战场景三:丢个 URL 让它自己配图

这个是我觉得最骚的操作。直接把 OpenAI 官方发布页的链接丢给它,让它自己理解页面内容生成配图,提示词就一句:

根据这个网页内容 openai.com/index/intro... 生成一张文章配图,科技感风格,中文排版,突出 GPT-Image-2 核心能力。

出来就是这张------科技感背景、六个能力模块、中文全对。我就给了个链接,它自己把页面内容读完,自己想好怎么排,图就出来了。

让 GPT-Image-2 给自己的发布页配图,感觉有点自己给自己打广告的意思,哈哈。

以后写文章头疼配图的问题基本解决了,URL 扔过去就完事。


最后一个小技巧:复杂内容先整理再生图

如果我们要生成一张带大量中文内容的图,比如人物介绍、时间线、对比表格这类,不要直接丢给它靠它自己发挥。先让 ChatGPT 把内容整理好,文字确认没问题,再拿着整理好的内容去生图。

这样中文准确率会高很多,省得生出来发现字错了还要重来,白花那几毛钱。


最后说两句

玩了一天下来,我的感觉一直都是兴奋的。感觉自己已经成为了一个无所不能的设计师,甚至都不需要思考太多细节,GPT-Image-2 的想法已经在我之上,完美击中我的美感。

前面我说感觉设计师的 Vibe Coding 时代要来了,玩完这一天我更确定了。

但同时我也有种同病相怜的感觉。AI 给技术开发者带来了便捷和效率,同时也让大批技术开发面临失业的压力。GPT-Image-2 的问世给了设计师属于自己的 Vibe Coding 时刻,但会不会同样也让大批设计师陷入同样的处境?

这个问题我没有答案。但至少现在,我们能用上这个工具,先爽为敬。

相关推荐
Jump 不二2 小时前
同样的提示词,ChatGPT Images 2.0 赢麻了
图像处理·人工智能·深度学习·chatgpt
ZPC82102 小时前
nmtui
人工智能·算法·机器人
轻赚时代2 小时前
音视频 + 图像处理一站式工具箱:AI 辅助高效处理教程
人工智能·经验分享·笔记·创业创新·课程设计
AI服务老曹2 小时前
【架构深评】打通 X86/ARM 异构屏障:基于 GB28181/RTSP 的企业级 AI 视频管理平台架构解析
arm开发·人工智能·架构
Bruce_Liuxiaowei2 小时前
工信部算力政策与县级融媒体安全场景应用与实践路径
人工智能·安全·媒体·算力
Eva_Hua2 小时前
NTIRE2025 RAW图像恢复与超分辨率
人工智能·计算机视觉
GaoJamie2 小时前
AI训推一体化轻量平台技术选型决策书
人工智能
DeepSCRM2 小时前
分布式架构下的跨境多平台通讯优化:如何通过语义网关提升交互转化?
人工智能
夏日的盒盒2 小时前
多实例学习(Multiple Instance Learning)计算病理学综述
人工智能·深度学习