单次8张不换脸,OpenAI这次把漫画师的活干了

前天凌晨,Sam Altman 在 X 上发了一部漫画。

不是人画的。是 ChatGPT 自己生成的------六格分镜,主角是 Altman 自己和另一位同事满世界找 GPU,人物形象从头到尾保持一致,对话气泡里的英文工整清晰,连漫画书纸张质感的纹理都没落下。

一天之内,这条推文被浏览超过 45 万次。评论区炸了:有人惊叹"漫画师要失业了",有人质疑"这肯定是人工修过"------Altman 没有回复任何辩解,只是在后续推文中继续用它生成更多图片。

这部漫画背后的引擎,就是 OpenAI 在 4 月 21 日正式发布的 ChatGPT Images 2.0。模型代号 gpt-image-2,是 OpenAI 首个具备推理能力的图像生成模型。

如果你对 AI 生图的印象还停留在"出张氛围图还行,一碰文字就乱码"的阶段,这次可能要更新认知了。

一次 8 张图,角色不换脸

Images 2.0 最抓眼球的能力,是单次提示最多生成 8 张连贯图像,角色、物体、风格保持一致。

这事听起来不大,但在 AI 生图领域是块硬骨头。过去做漫画分镜、儿童绘本、品牌系列海报,你得一张一张生成,每次重新描述"主角长什么样、穿什么衣服",然后祈祷模型别把蓝衣服画成绿的。8 张图下来,主角可能换了 3 张脸。

OpenAI 产品负责人 Adele Li 在媒体演示中上传了一份产品策略文档,模型没有简单配一张图了事------它综合了文档里的核心数据,识别了正确的品牌 Logo,最终生成了一张完整的宣传海报。这种"理解上下文再出图"的能力,以前是 Photoshop 加设计师的专属。

据 VentureBeat 报道,这项功能对漫画创作、故事板、品牌多图营销、儿童绘本等场景尤其有价值,"解决了过去必须一次提示一张图再手动拼接的繁琐流程"。

OpenAI 总裁 Greg Brockman 也坐不住了,在社交媒体上感叹:"真的难以置信,你现在用一点计算资源就能造出这样的东西。"

思考模式:先想清楚再画

传统 AI 生图的工作方式像个黑箱------你丢提示词,它吐图片。中间发生了什么,你不知道,它也不知道。

Images 2.0 的"思考模式"改了这套逻辑。选用思考模型(需 Plus 或 Pro 订阅)后,模型在渲染第一个像素之前,会先做三件事:

联网搜索 ,获取实时信息------比如天气、新闻、赛事比分。然后分析你上传的文件 ,把文档和图片的内容消化掉。最后一步是推理规划------搭好图像的骨架布局,甚至对自己即将生成的东西做一遍检查。

举个例子:你让它做一张"旧金山明天天气预报信息图",它不会瞎编数据。它会先搜旧金山实时天气,然后在图中准确画出雨天细节,同时把渡轮大厦、泛美金字塔等当地地标融入画面。你没交代的东西,它自己补上了。

Reddit 上有用户做了个狠测试:让模型生成一张"Where's Wally"风格的拥挤海滩场景,藏一个穿红外套的角色。图生成后,用户追问"把你藏的那个角色圈出来"------模型居然记住了自己生成角色的空间坐标,准确画了个圈。这种上下文记忆能力,以前从没在图像模型里出现过。

中文终于不是乱码了

AI 生图最丢人的时刻:你精心写了一行中文口号放海报里,结果出来一堆鬼画符。DALL-E 3 时代这种翻车数不胜数。

Images 2.0 这次重点提升了中文、日文、韩文、印地语、孟加拉语的文本渲染。据 TechCrunch 报道,模型在小号文字、图标、UI 元素、密集构图这些"过去让图像模型频频翻车"的领域,现在能稳定渲染,API 分辨率最高支持 2K(4K 仍为 beta)。

《连线》杂志记者直接让模型生成了一张 Timothée Chalamet 主题的中国粉丝拼贴海报。画面中出现了超过 20 处中文文本,配上饺子、珍珠奶茶和熊猫------中文不仅拼写正确,排版也自然融入了设计。

更直观的对比来自开发者 Simon Willison 的测试。他让新旧模型分别生成一张"沃利在哪里"风格的寻物图,目标是找到一只拿着业余无线电的浣熊。旧版画面丰富但翻遍找不到浣熊。新版在 4K 设置下吐出了一张 17MB 的图,那只浣熊正安安静静坐在左下角,清晰可辨。

两档模式,各管各的

Images 2.0 提供两种生成模式:

即时模式(Instant)--- 所有用户可用,包括免费用户。主打速度,日常任务够用。实测免费用户每天大概能生成 5 张。

思考模式(Thinking)--- Plus、Pro、Business 用户专属。速度更慢,但输出质量明显更高。支持联网搜索、多图连贯生成、自我校验。据 PetaPixel 报道,思考模式的本质是把 OpenAI 的推理模型能力融入图像生成流程,让模型在生成前先"理解"任务,而不是机械地把提示词变成像素。

跟竞品比,到底什么水平?

直接上硬数据,综合 PrimeAI Center 对比测试及多家媒体评测:

维度 Images 2.0 Midjourney V8 Nano Banana Pro DALL-E 3
文字渲染 接近完美 在进步 较强 不可靠
单次批量 最多 8 张 最多 4 张 1-4 张 最多 4 张
角色一致性 强(思考模式) 中等
推理能力
最高分辨率 2K(4K beta) 2K 2K 1K

Images 2.0 在"能不能直接拿来交差"这个维度拉了一大截。Midjourney 在艺术审美和风格探索上依然领先------论"能出活儿"的程度,OpenAI 这次跑到了前面。

CNET 的评价很直白:ChatGPT 不追求 Midjourney 的艺术奇幻感,也不做 Adobe 级别的专业编辑工具,它瞄准的是中间那群人------需要快速出好看内容的人。

局限性:别急着喊"设计师失业"

泼盆冷水。Images 2.0 不是万能的。

OpenAI 自己承认了几条短板:折纸、魔方等复杂物理结构理解有限;隐藏或倾斜表面的细节表现不稳定;沙粒这类高密度重复细节仍然处理不好。

沃顿商学院教授 Ethan Mollick 过去几周一直在测试 Images 2.0,他的结论是:"我原本不觉得更好的图像生成器是什么大事,但事实证明存在一个我没预料到的质量门槛------一旦跨过去,就能生成高质量的文字内容、幻灯片和学术海报。"但他同时提醒:模型在反复编辑修改时会变得"非常顽固",前两次调整效果不错,之后就开始磨洋工。这时候不如把图像放进新对话重新开始。

Reddit 用户还发现了一个"网格噪点"的 bug:用逗号分隔的关键词堆砌提示词时,生成的图像会出现奇怪的网格纹理。解决办法出奇地简单------把关键词式提示词改成自然语言描述,噪点就消失了。一位用户说:"一旦你用自然语言跟它说话,输出的真实感可以骗过 iPhone 照片。"

我的判断

Images 2.0 最大的意义,不是画得更好看了------而是图像生成第一次开始"做事"了。

过去几年 AI 生图的竞争主旋律是审美竞赛:谁更会出氛围图,谁更会做大片感。但真正卡住商业落地的,从来不是"像不像艺术",而是"能不能交付"。海报里的字写不对,品牌名不一致,信息图只能远看不能细读------这些毛病让 AI 生图长期停在"适合演示,不适合生产"的阶段。

Images 2.0 的思考模式、多图连贯、多语言文本渲染,恰好对准了这些真实痛点。36 氪的实测标题写"10 招玩转生图新王",爱范儿写"设计师没完蛋,但我被 AI 骗麻了"------两种态度,其实说的是同一件事:AI 生图从玩具变成了工具。

对普通用户,免费版就够玩。对创作者和营销人,Plus 订阅的思考模式值得一试------漫画、绘本、品牌素材这些需要连贯性的场景,确实能省不少时间。

至于设计师会不会失业?短期不会。但"会用 AI 的设计师"和"不会用的设计师"之间的差距,从 4 月 21 日这天开始拉大了。

你觉得 AI 能替代漫画师吗?能扣 1,不能扣 2,评论区见。

相关推荐
92year2 小时前
一个 RAG 框架处理 PDF 里的图表和公式——RAG-Anything 架构拆解与踩坑实录
aigc
小阿鑫2 小时前
设计圈真的要变天了:ChatGPT Image 2 不只是会生图了
chatgpt·aigc·设计师·设计
程序员海军2 小时前
设计圈真的要变天了:ChatGPT Image 2 不只是会生图了
aigc·设计师·交互设计
TheRouter3 小时前
gpt-image-2发布第一天,我用它替换了文章配图的整套流程
gpt·ai·ai作画·llm·openai
CS创新实验室3 小时前
AI推理进化史:从GPT到推理模型,AI的“思考能力”如何突破?
人工智能·gpt
我是无敌小恐龙3 小时前
Java SE 零基础入门Day03 数组核心详解(定义+内存+遍历+算法+实战案例)
java·开发语言·数据结构·人工智能·算法·aigc·动态规划
月诸清酒3 小时前
39-260422 AI 科技日报 (OpenAI 发布 GPT-Image-2:视觉理解力登顶)
人工智能·gpt
RE.nior4 小时前
2026 年 4 月 AI 视频生成模型实测:Wan 2.7、PixVerse V6、Sora 2、Seedance 2.0 谁能打
人工智能·aigc·音视频