我从 Nano Banana 回来了，GPT-Image-2 真的太强了

大家好，我是卡卡。

这两天不管在社区还是新闻，几乎全被 GPT-Image-2 刷屏了。超强的功能直接把 Nano Banana 甩出一条街，是真的牛啊。

就在前天凌晨，OpenAI 正式推出 GPT-Image-2，面向所有 ChatGPT 和 Codex 用户开放。带思考功能的图片生成已向 ChatGPT Plus、Pro 和 Business 用户开放（企业版即将推出）。移动端记得更新到最新版本，底层模型就是 gpt-image-2。

发布之后直接登顶 T2I Arena 第一，ELO 1512，第二名 Nano Banana 2 才 1271，差了 241 分，断崖式领先真的不是说说而已。

其中我觉得最强的地方在于：根本不需要参考图，也不用写严谨复杂的提示词，就能生成以假乱真的截图、海报、广告设计。以前设计师要花半天的东西，现在一句话就出来了，感觉设计师的Vibe Coding时代真的要来了。

讲真的说，我一直是 ChatGPT 的忠实用户，但就是生图这块真的是一用一个不吱声，之前我用 ChatGPT 生图，提示词尽管已经写得很完善了，但它就是 get 不到我想要的效果，中文支持更是极其不友好，不是乱码就是错别字，生图十次找不到一次满意的。

后来 Nano Banana Pro 如日中天，实在扛不住它的强大，生图就全换过去了。

没想到这次 GPT-Image-2 发布直接给了我一个大惊喜。不仅排名上完虐 Nano Banana Pro，实际体验也是，Nano Banana Pro 现在就是弟弟啊。

最让我惊喜的是中文支持。玩了一天，几乎没出现过乱码，这对之前被 ChatGPT 生图伤透心的我来说，真的太牛了。而且生成的图片完全不带 AI 味道，几乎以假乱真，你要不说我真的分辨不出来是 AI 生成的。

看上面这张图，能看出来是 GPT-Image-2 生成的吗？能感觉出来是 AI 图吗？

要不是我们都知道 Anthropic 根本不可能把 Claude 开放给中国用户，这张图真的要把我惊到了------推文格式、中文排版、配图风格，全都对，一点 AI 味都没有。是不是非常厉害？

官方说 ChatGPT Images 2.0 是 OpenAI 首个具备「思考」能力的图像模型，中译中就是：以假乱真不费劲，是真·生产力工具。

GPT-Image-2 底层跑的是 GPT-5.4，原生多模态，不是像以前那样把扩散模型外挂上去。所以它理解我们说什么的能力，本来就比老模型强一个档次。

Thinking 模式开启之后，它可以联网搜索、自己生成多张变体、还会自检输出。我们给一个模糊的需求，它会自己想清楚再动手，而不是直接硬生成一张不知所云的图。这也是为啥我们不用写很复杂的提示词它也能出好图的原因。

还有几个细节值得说：

更离谱的是价格，比我之前用的 Nano Banana Pro 便宜很多，Low 和 Medium 质量甚至比上一代 GPT Image 1 还便宜。如图：

日常生图用 Medium 质量完全够用，一张才 $0.053，随便玩。

我第一个测试的场景就是电影海报，不过我稍微恶搞了一下------让它生成「林黛玉打虎」的古装动作片剧照。

这张图出来的时候我真的愣了一下，太完美了。水墨山水背景、古风毛笔字体、「不让须眉·柔中带刚」的副标题，还有左下角的「红楼一梦，谁解其中味」，全都对上了。人物动作大气、老虎细节到位，整体看起来艺术感十足，完全不像 AI 生的，更像是真的电影宣发团队做出来的海报。

就一句提示词，没有参考图，没有复杂参数，出来就是这个效果。

这种场景以前要么找设计师，要么自己 PS 半天，现在真的一句话搞定。

同样的提示词，我分别用 GPT-Image-2 和 Nano Banana Pro 各生成了一张。

↑ GPT-Image-2 生成的

↑ Nano Banana Pro 生成的

两张放在一起差距还是看得出来的。GPT-Image-2 那张黑板质感、中文字体、排版层次都更好，看着像认真做过的。Nano Banana Pro 那张感觉就是把内容堆上去了，颜色也有点乱。

速度上 GPT-Image-2 也快不少，等 Nano Banana Pro 生成的那段时间，GPT-Image-2 都已经出图了。

做技术分享、写公众号的朋友真的可以试试，以前搞这种配图要在 Canva 里折腾半天，现在一句话的事。

这个是我觉得最骚的操作。直接把 OpenAI 官方发布页的链接丢给它，让它自己理解页面内容生成配图，提示词就一句：

根据这个网页内容 openai.com/index/intro... 生成一张文章配图，科技感风格，中文排版，突出 GPT-Image-2 核心能力。

出来就是这张------科技感背景、六个能力模块、中文全对。我就给了个链接，它自己把页面内容读完，自己想好怎么排，图就出来了。

让 GPT-Image-2 给自己的发布页配图，感觉有点自己给自己打广告的意思，哈哈。

以后写文章头疼配图的问题基本解决了，URL 扔过去就完事。

如果我们要生成一张带大量中文内容的图，比如人物介绍、时间线、对比表格这类，不要直接丢给它靠它自己发挥。先让 ChatGPT 把内容整理好，文字确认没问题，再拿着整理好的内容去生图。

这样中文准确率会高很多，省得生出来发现字错了还要重来，白花那几毛钱。

玩了一天下来，我的感觉一直都是兴奋的。感觉自己已经成为了一个无所不能的设计师，甚至都不需要思考太多细节，GPT-Image-2 的想法已经在我之上，完美击中我的美感。

前面我说感觉设计师的 Vibe Coding 时代要来了，玩完这一天我更确定了。

但同时我也有种同病相怜的感觉。AI 给技术开发者带来了便捷和效率，同时也让大批技术开发面临失业的压力。GPT-Image-2 的问世给了设计师属于自己的 Vibe Coding 时刻，但会不会同样也让大批设计师陷入同样的处境？

这个问题我没有答案。但至少现在，我们能用上这个工具，先爽为敬。