前天凌晨,Sam Altman 在 X 上发了一部漫画。
不是人画的。是 ChatGPT 自己生成的------六格分镜,主角是 Altman 自己和另一位同事满世界找 GPU,人物形象从头到尾保持一致,对话气泡里的英文工整清晰,连漫画书纸张质感的纹理都没落下。
一天之内,这条推文被浏览超过 45 万次。评论区炸了:有人惊叹"漫画师要失业了",有人质疑"这肯定是人工修过"------Altman 没有回复任何辩解,只是在后续推文中继续用它生成更多图片。
这部漫画背后的引擎,就是 OpenAI 在 4 月 21 日正式发布的 ChatGPT Images 2.0。模型代号 gpt-image-2,是 OpenAI 首个具备推理能力的图像生成模型。
如果你对 AI 生图的印象还停留在"出张氛围图还行,一碰文字就乱码"的阶段,这次可能要更新认知了。
一次 8 张图,角色不换脸
Images 2.0 最抓眼球的能力,是单次提示最多生成 8 张连贯图像,角色、物体、风格保持一致。
这事听起来不大,但在 AI 生图领域是块硬骨头。过去做漫画分镜、儿童绘本、品牌系列海报,你得一张一张生成,每次重新描述"主角长什么样、穿什么衣服",然后祈祷模型别把蓝衣服画成绿的。8 张图下来,主角可能换了 3 张脸。
OpenAI 产品负责人 Adele Li 在媒体演示中上传了一份产品策略文档,模型没有简单配一张图了事------它综合了文档里的核心数据,识别了正确的品牌 Logo,最终生成了一张完整的宣传海报。这种"理解上下文再出图"的能力,以前是 Photoshop 加设计师的专属。
据 VentureBeat 报道,这项功能对漫画创作、故事板、品牌多图营销、儿童绘本等场景尤其有价值,"解决了过去必须一次提示一张图再手动拼接的繁琐流程"。

OpenAI 总裁 Greg Brockman 也坐不住了,在社交媒体上感叹:"真的难以置信,你现在用一点计算资源就能造出这样的东西。"
思考模式:先想清楚再画
传统 AI 生图的工作方式像个黑箱------你丢提示词,它吐图片。中间发生了什么,你不知道,它也不知道。
Images 2.0 的"思考模式"改了这套逻辑。选用思考模型(需 Plus 或 Pro 订阅)后,模型在渲染第一个像素之前,会先做三件事:
联网搜索 ,获取实时信息------比如天气、新闻、赛事比分。然后分析你上传的文件 ,把文档和图片的内容消化掉。最后一步是推理规划------搭好图像的骨架布局,甚至对自己即将生成的东西做一遍检查。

举个例子:你让它做一张"旧金山明天天气预报信息图",它不会瞎编数据。它会先搜旧金山实时天气,然后在图中准确画出雨天细节,同时把渡轮大厦、泛美金字塔等当地地标融入画面。你没交代的东西,它自己补上了。
Reddit 上有用户做了个狠测试:让模型生成一张"Where's Wally"风格的拥挤海滩场景,藏一个穿红外套的角色。图生成后,用户追问"把你藏的那个角色圈出来"------模型居然记住了自己生成角色的空间坐标,准确画了个圈。这种上下文记忆能力,以前从没在图像模型里出现过。
中文终于不是乱码了
AI 生图最丢人的时刻:你精心写了一行中文口号放海报里,结果出来一堆鬼画符。DALL-E 3 时代这种翻车数不胜数。
Images 2.0 这次重点提升了中文、日文、韩文、印地语、孟加拉语的文本渲染。据 TechCrunch 报道,模型在小号文字、图标、UI 元素、密集构图这些"过去让图像模型频频翻车"的领域,现在能稳定渲染,API 分辨率最高支持 2K(4K 仍为 beta)。
《连线》杂志记者直接让模型生成了一张 Timothée Chalamet 主题的中国粉丝拼贴海报。画面中出现了超过 20 处中文文本,配上饺子、珍珠奶茶和熊猫------中文不仅拼写正确,排版也自然融入了设计。
更直观的对比来自开发者 Simon Willison 的测试。他让新旧模型分别生成一张"沃利在哪里"风格的寻物图,目标是找到一只拿着业余无线电的浣熊。旧版画面丰富但翻遍找不到浣熊。新版在 4K 设置下吐出了一张 17MB 的图,那只浣熊正安安静静坐在左下角,清晰可辨。
两档模式,各管各的
Images 2.0 提供两种生成模式:
即时模式(Instant)--- 所有用户可用,包括免费用户。主打速度,日常任务够用。实测免费用户每天大概能生成 5 张。
思考模式(Thinking)--- Plus、Pro、Business 用户专属。速度更慢,但输出质量明显更高。支持联网搜索、多图连贯生成、自我校验。据 PetaPixel 报道,思考模式的本质是把 OpenAI 的推理模型能力融入图像生成流程,让模型在生成前先"理解"任务,而不是机械地把提示词变成像素。
跟竞品比,到底什么水平?
直接上硬数据,综合 PrimeAI Center 对比测试及多家媒体评测:
| 维度 | Images 2.0 | Midjourney V8 | Nano Banana Pro | DALL-E 3 |
|---|---|---|---|---|
| 文字渲染 | 接近完美 | 在进步 | 较强 | 不可靠 |
| 单次批量 | 最多 8 张 | 最多 4 张 | 1-4 张 | 最多 4 张 |
| 角色一致性 | 强(思考模式) | 强 | 中等 | 弱 |
| 推理能力 | 有 | 无 | 有 | 无 |
| 最高分辨率 | 2K(4K beta) | 2K | 2K | 1K |
Images 2.0 在"能不能直接拿来交差"这个维度拉了一大截。Midjourney 在艺术审美和风格探索上依然领先------论"能出活儿"的程度,OpenAI 这次跑到了前面。
CNET 的评价很直白:ChatGPT 不追求 Midjourney 的艺术奇幻感,也不做 Adobe 级别的专业编辑工具,它瞄准的是中间那群人------需要快速出好看内容的人。
局限性:别急着喊"设计师失业"
泼盆冷水。Images 2.0 不是万能的。
OpenAI 自己承认了几条短板:折纸、魔方等复杂物理结构理解有限;隐藏或倾斜表面的细节表现不稳定;沙粒这类高密度重复细节仍然处理不好。
沃顿商学院教授 Ethan Mollick 过去几周一直在测试 Images 2.0,他的结论是:"我原本不觉得更好的图像生成器是什么大事,但事实证明存在一个我没预料到的质量门槛------一旦跨过去,就能生成高质量的文字内容、幻灯片和学术海报。"但他同时提醒:模型在反复编辑修改时会变得"非常顽固",前两次调整效果不错,之后就开始磨洋工。这时候不如把图像放进新对话重新开始。
Reddit 用户还发现了一个"网格噪点"的 bug:用逗号分隔的关键词堆砌提示词时,生成的图像会出现奇怪的网格纹理。解决办法出奇地简单------把关键词式提示词改成自然语言描述,噪点就消失了。一位用户说:"一旦你用自然语言跟它说话,输出的真实感可以骗过 iPhone 照片。"
我的判断
Images 2.0 最大的意义,不是画得更好看了------而是图像生成第一次开始"做事"了。
过去几年 AI 生图的竞争主旋律是审美竞赛:谁更会出氛围图,谁更会做大片感。但真正卡住商业落地的,从来不是"像不像艺术",而是"能不能交付"。海报里的字写不对,品牌名不一致,信息图只能远看不能细读------这些毛病让 AI 生图长期停在"适合演示,不适合生产"的阶段。
Images 2.0 的思考模式、多图连贯、多语言文本渲染,恰好对准了这些真实痛点。36 氪的实测标题写"10 招玩转生图新王",爱范儿写"设计师没完蛋,但我被 AI 骗麻了"------两种态度,其实说的是同一件事:AI 生图从玩具变成了工具。
对普通用户,免费版就够玩。对创作者和营销人,Plus 订阅的思考模式值得一试------漫画、绘本、品牌素材这些需要连贯性的场景,确实能省不少时间。
至于设计师会不会失业?短期不会。但"会用 AI 的设计师"和"不会用的设计师"之间的差距,从 4 月 21 日这天开始拉大了。
你觉得 AI 能替代漫画师吗?能扣 1,不能扣 2,评论区见。