单次8张不换脸，OpenAI这次把漫画师的活干了

前天凌晨，Sam Altman 在 X 上发了一部漫画。

不是人画的。是 ChatGPT 自己生成的------六格分镜，主角是 Altman 自己和另一位同事满世界找 GPU，人物形象从头到尾保持一致，对话气泡里的英文工整清晰，连漫画书纸张质感的纹理都没落下。

一天之内，这条推文被浏览超过 45 万次。评论区炸了：有人惊叹"漫画师要失业了"，有人质疑"这肯定是人工修过"------Altman 没有回复任何辩解，只是在后续推文中继续用它生成更多图片。

这部漫画背后的引擎，就是 OpenAI 在 4 月 21 日正式发布的 ChatGPT Images 2.0。模型代号 gpt-image-2，是 OpenAI 首个具备推理能力的图像生成模型。

如果你对 AI 生图的印象还停留在"出张氛围图还行，一碰文字就乱码"的阶段，这次可能要更新认知了。

一次 8 张图，角色不换脸

Images 2.0 最抓眼球的能力，是单次提示最多生成 8 张连贯图像，角色、物体、风格保持一致。

这事听起来不大，但在 AI 生图领域是块硬骨头。过去做漫画分镜、儿童绘本、品牌系列海报，你得一张一张生成，每次重新描述"主角长什么样、穿什么衣服"，然后祈祷模型别把蓝衣服画成绿的。8 张图下来，主角可能换了 3 张脸。

OpenAI 产品负责人 Adele Li 在媒体演示中上传了一份产品策略文档，模型没有简单配一张图了事------它综合了文档里的核心数据，识别了正确的品牌 Logo，最终生成了一张完整的宣传海报。这种"理解上下文再出图"的能力，以前是 Photoshop 加设计师的专属。

据 VentureBeat 报道，这项功能对漫画创作、故事板、品牌多图营销、儿童绘本等场景尤其有价值，"解决了过去必须一次提示一张图再手动拼接的繁琐流程"。

OpenAI 总裁 Greg Brockman 也坐不住了，在社交媒体上感叹："真的难以置信，你现在用一点计算资源就能造出这样的东西。"

思考模式：先想清楚再画

传统 AI 生图的工作方式像个黑箱------你丢提示词，它吐图片。中间发生了什么，你不知道，它也不知道。

Images 2.0 的"思考模式"改了这套逻辑。选用思考模型（需 Plus 或 Pro 订阅）后，模型在渲染第一个像素之前，会先做三件事：

联网搜索 ，获取实时信息------比如天气、新闻、赛事比分。然后分析你上传的文件 ，把文档和图片的内容消化掉。最后一步是推理规划------搭好图像的骨架布局，甚至对自己即将生成的东西做一遍检查。

举个例子：你让它做一张"旧金山明天天气预报信息图"，它不会瞎编数据。它会先搜旧金山实时天气，然后在图中准确画出雨天细节，同时把渡轮大厦、泛美金字塔等当地地标融入画面。你没交代的东西，它自己补上了。

Reddit 上有用户做了个狠测试：让模型生成一张"Where's Wally"风格的拥挤海滩场景，藏一个穿红外套的角色。图生成后，用户追问"把你藏的那个角色圈出来"------模型居然记住了自己生成角色的空间坐标，准确画了个圈。这种上下文记忆能力，以前从没在图像模型里出现过。

中文终于不是乱码了

AI 生图最丢人的时刻：你精心写了一行中文口号放海报里，结果出来一堆鬼画符。DALL-E 3 时代这种翻车数不胜数。

Images 2.0 这次重点提升了中文、日文、韩文、印地语、孟加拉语的文本渲染。据 TechCrunch 报道，模型在小号文字、图标、UI 元素、密集构图这些"过去让图像模型频频翻车"的领域，现在能稳定渲染，API 分辨率最高支持 2K（4K 仍为 beta）。

《连线》杂志记者直接让模型生成了一张 Timothée Chalamet 主题的中国粉丝拼贴海报。画面中出现了超过 20 处中文文本，配上饺子、珍珠奶茶和熊猫------中文不仅拼写正确，排版也自然融入了设计。

更直观的对比来自开发者 Simon Willison 的测试。他让新旧模型分别生成一张"沃利在哪里"风格的寻物图，目标是找到一只拿着业余无线电的浣熊。旧版画面丰富但翻遍找不到浣熊。新版在 4K 设置下吐出了一张 17MB 的图，那只浣熊正安安静静坐在左下角，清晰可辨。

两档模式，各管各的

Images 2.0 提供两种生成模式：

即时模式（Instant）--- 所有用户可用，包括免费用户。主打速度，日常任务够用。实测免费用户每天大概能生成 5 张。

思考模式（Thinking）--- Plus、Pro、Business 用户专属。速度更慢，但输出质量明显更高。支持联网搜索、多图连贯生成、自我校验。据 PetaPixel 报道，思考模式的本质是把 OpenAI 的推理模型能力融入图像生成流程，让模型在生成前先"理解"任务，而不是机械地把提示词变成像素。

跟竞品比，到底什么水平？

直接上硬数据，综合 PrimeAI Center 对比测试及多家媒体评测：

维度	Images 2.0	Midjourney V8	Nano Banana Pro	DALL-E 3
文字渲染	接近完美	在进步	较强	不可靠
单次批量	最多 8 张	最多 4 张	1-4 张	最多 4 张
角色一致性	强（思考模式）	强	中等	弱
推理能力	有	无	有	无
最高分辨率	2K（4K beta）	2K	2K	1K

Images 2.0 在"能不能直接拿来交差"这个维度拉了一大截。Midjourney 在艺术审美和风格探索上依然领先------论"能出活儿"的程度，OpenAI 这次跑到了前面。

CNET 的评价很直白：ChatGPT 不追求 Midjourney 的艺术奇幻感，也不做 Adobe 级别的专业编辑工具，它瞄准的是中间那群人------需要快速出好看内容的人。

局限性：别急着喊"设计师失业"

泼盆冷水。Images 2.0 不是万能的。

OpenAI 自己承认了几条短板：折纸、魔方等复杂物理结构理解有限；隐藏或倾斜表面的细节表现不稳定；沙粒这类高密度重复细节仍然处理不好。

沃顿商学院教授 Ethan Mollick 过去几周一直在测试 Images 2.0，他的结论是："我原本不觉得更好的图像生成器是什么大事，但事实证明存在一个我没预料到的质量门槛------一旦跨过去，就能生成高质量的文字内容、幻灯片和学术海报。"但他同时提醒：模型在反复编辑修改时会变得"非常顽固"，前两次调整效果不错，之后就开始磨洋工。这时候不如把图像放进新对话重新开始。

Reddit 用户还发现了一个"网格噪点"的 bug：用逗号分隔的关键词堆砌提示词时，生成的图像会出现奇怪的网格纹理。解决办法出奇地简单------把关键词式提示词改成自然语言描述，噪点就消失了。一位用户说："一旦你用自然语言跟它说话，输出的真实感可以骗过 iPhone 照片。"

我的判断

Images 2.0 最大的意义，不是画得更好看了------而是图像生成第一次开始"做事"了。

过去几年 AI 生图的竞争主旋律是审美竞赛：谁更会出氛围图，谁更会做大片感。但真正卡住商业落地的，从来不是"像不像艺术"，而是"能不能交付"。海报里的字写不对，品牌名不一致，信息图只能远看不能细读------这些毛病让 AI 生图长期停在"适合演示，不适合生产"的阶段。

Images 2.0 的思考模式、多图连贯、多语言文本渲染，恰好对准了这些真实痛点。36 氪的实测标题写"10 招玩转生图新王"，爱范儿写"设计师没完蛋，但我被 AI 骗麻了"------两种态度，其实说的是同一件事：AI 生图从玩具变成了工具。

对普通用户，免费版就够玩。对创作者和营销人，Plus 订阅的思考模式值得一试------漫画、绘本、品牌素材这些需要连贯性的场景，确实能省不少时间。

至于设计师会不会失业？短期不会。但"会用 AI 的设计师"和"不会用的设计师"之间的差距，从 4 月 21 日这天开始拉大了。

你觉得 AI 能替代漫画师吗？能扣 1，不能扣 2，评论区见。