
一个激动人心的消息。
code秘密花园已经和 OpenAI 官方达成了合作,后续会一起探索和优化中文社区的 AI 编程体验。
这是真的吗?当然是假的!
这几天患上了严重的看图多疑症,每次看到一张图片,都要先怀疑下是不是 AI 生成的。
这些图的背后就是 OpenAI 最新发布的生图模型 GPT-Image-2 。
2026 年 4 月 21 日,OpenAI 发布了 GPT-Image-2,在 ChatGPT 中被称为 Images 2.0。
在 Arena.AI 的 Text-to-Image 排行榜上,GPT-Image-2 以 1512 分登顶,比第二名谷歌的 Nano-Banana-2 高出 242 分。Arena.AI 官方评价说:从未有任何模型能以如此悬殊的优势排名第一。

作为 Nano-Banana-2 一直以来的忠实粉丝(之前文章配图大部分为 Nano-Banana 生成的),我可以毫不夸张的说,GPT-Image-2 是迄今为止最强大的图像生成模型,大部分情况下效果碾压 Nano-Banana。
大家好,我是花园老师(ConardLi),欢迎来到 code秘密花园。
今天,我们将从多个角度讲透 GPT-Image-2:
GPT-Image-2究竟强在哪?GPT-Image-2哪里可以用?GPT-Image-2有哪些有意思的玩法?GPT-Image-2使用的最佳实践?
同时,我将介绍我开源的 GPT-IMAGE-2 玩法网站:

以及我开源的 GPT-IMAGE-2 生图 Skill:

一、GPT-Image-2 究竟强在哪?

经过我的大量实践,我发现 GPT-Image-2 的强主要体现在下面几个方面:
第一是文字渲染。

过去很多 AI 图最明显的问题就是图里文字乱掉,英文还好,中文、日文、韩文、印地语等多语言更容易翻车(Nano-Banana 在文字较多的时候经常会出现问题)。
GPT-Image-2 明显把 "图中文字" 当成核心能力来做了,适合做海报、封面、菜单、招牌、PPT 风格图、UI 标签和信息图。
第二是指令遵循。
你可以给它非常具体的要求:主体放哪里、背景是什么、文案怎么排、风格偏杂志还是电商、哪些元素不能变。

虽然它无法保证像 Figma 一样的软件像素级可控,但比上一代更接近 "按 brief 出图" 的感觉。
第三是编辑能力。
GPT-Image-2 支持图像输入和图像编辑,并且会以高保真方式处理输入图片。

这意味着它更适合做产品换背景、局部替换、风格统一、Logo/包装保留、人物或物体的参考图延展。
二、GPT-Image-2 哪里可以用?
官方渠道
最直接的入口是 ChatGPT,Plus、Pro、Business 等付费订阅可以直接使用:

另外,GPT-Image-2 还直接整合进了 OpenAI 的 Codex 开发环境。
这意味着开发者可以在写代码的同时,用自然语言让 AI 生成 UI 界面图、游戏贴图、应用图标等视觉资产。

三方平台
Lovart 是目前最热门的 AI 设计的平台,已经第一时间接入了 GPT-Image-2。

它的核心产品叫 ChatCanvas --- 一个支持视觉反馈的 AI 设计协作画布。你可以把 GPT-Image-2 的生成能力和其他模型串联使用,在同一个画布上完成从草图到成品的全流程。
API 调用
首先是官方渠道,开发者可以在 OpenAI 的 Image API 里用 model: "gpt-image-2" 调 images.generate 或 images.edit。

这适合把图像生成接进自己的产品,比如营销工具、电商后台、设计平台、内容生产系统或内部自动化工作流。
如果你不想直接对接 OpenAI 的 API,还有更灵活的选择。
OpenRouter 是目前最热门的模型路由平台,已上线 GPT-Image-2(通过 openai/gpt-5.4-image-2 模型名调用)。它的优势是统一 API 格式、自动负载均衡、支持多模型切换。

302.AI 是国内开发者更熟悉的平台,它按用量付费,支付简单,无需订阅,小白推荐。

三、GPT-Image-2 有哪些有意思的玩法?
案例网站
由于 GPT-Image-2 的玩法非常丰富,为了方便搭建能更好的把它用起来,我专门为 GPT-Image-2 建立了一个使用指南网站:

我实际跑了大量案例 --- 覆盖多个分类、大量结构化模板 --- 然后把这些案例全部收录到网站中了:
🔗 网站地址:gpt-image2.mmh1.top/
这个站不是一个简单的图库。每张图点开后,你能看到:

- 完整的生成 prompt(可一键复制)
- 它用了哪个模板
- 模板里哪些字段是你可以改的
- 怎么对着 Agent 说一句话就能复现这张图
网站支持两种浏览模式 --- 瀑布流和按分类查看,你可以快速翻到自己感兴趣的类型。

典型案例
下面挑几个我觉得比较有代表性的方向,每个都是 GPT-Image-2 比较能发挥的场景。
1. UI 界面样机
GPT-Image-2 在生成 "看起来像真实截图" 的 UI 界面方面效果非常不错。我跑了一系列 UI 样机的 prompt,包括直播电商界面、社交平台动态页、短视频封面、聊天对话界面等等。

看完这些图,可能真的会感叹一句:有图有真相的时代结束了...
2. 海报与品牌视觉
包括品牌主海报、Campaign KV、Web Banner、杂志封面等。

你可以在 prompt 里指定品牌名、slogan、配色方案、人物站位,它给出的结果在排版合理性上比以前强了不少。

我测了 Nike × LeBron James 运动海报、Apple Vision Pro 产品季 KV、《时代》杂志风格封面等,都能比较好地完成。
3. 信息图与数据可视化
GPT-Image-2 的文字渲染能力让信息图变得非常稳定了。

你可以拿它做便当格布局(bento grid)、手绘风信息图、步骤教程图、KPI 仪表盘等风格。

像 "iPhone 16 Pro 全方位解析" 这种高密度多模块的图,它也能把各个区块的中文标签渲染清楚。
4. 学术配图
这个方向可能出乎你的意料。
GPT-Image-2 可以生成论文级别的方法总览图(pipeline figure)、神经网络架构图、机理示意图、Graphical Abstract 等。

风格上偏白底、出版物字体、低饱和工程色,看起来像正经投稿论文里的 figure。

我分别跑了 CS/CV/ML 方向的 pipeline 图、工程方向的机理图、以及答辩首页的研究总览图,效果都还不错。
5. 漫画与角色
四格漫画、跨页分镜、角色设定表、角色关系图 --- 这些以前需要画师才能搞定的东西,GPT-Image-2 也能交出像样的结果了。

我试了"程序员与合并不了的周一"四格漫画、仙侠少年的 8 格跨页彩色分镜、《三体》核心人物关系图等。

人物一致性虽然还不完美,但作为快速出概念、跑 MVP 来说够用了。
6. 技术架构图
是的,GPT-Image-2 还能画系统架构图、流程图、时序图、ER 图、状态机、思维导图、网络拓扑图。

当然,这些图是 PNG 位图,不是可编辑的 SVG。

所以它更适合用在文档配图、技术分享的 PPT、或者快速表达一个架构思路的场景,而不是替代 draw.io / Excalidraw。
7. 头像与贴纸
风格化头像、角色网格肖像、3D 拟物图标、贴纸套装、历史人物系列 --- 这个方向很适合拿来玩。

上面列的只是一部分方向。完整的几百个案例,覆盖地图、产品视觉、绘本、极简氛围图、包装设计等 18 个分类,都在网站上可以免费查看:
四、GPT-Image-2 使用的最佳实践?
你可能已经注意到了,上面这些案例有个共同特点:prompt 都比较长、结构化程度很高。
如果你直接对 GPT-Image-2 说 "帮我画个海报",出来的效果肯定不如上面这些。区别在哪?在于 prompt 的工程化程度。
这就引出了我做的另一个东西 --- GPT-Image-2 生图 Skill。
我的生图 Skill 介绍?
简单说,Skill 是一套给 AI Agent 看的 "工作手册"。

你把一个 Skill 放到 Agent 的工作环境里(比如 Claude Code、Cursor、Codex),Agent 就会按照 Skill 定义的流程来干活。对于生图这件事,流程是:
- 判断当前运行模式(有 API Key 吗?宿主有图像工具吗?)
- 分析用户的需求属于哪个视觉类型
- 找到对应的结构化模板
- 把用户输入填进模板里
- 渲染出一个高质量 prompt
- 调用图像工具出图(或者把 prompt 直接给你)
我之前开源的 rag-skill、web-design-skill ,以及当前这个 gpt-image-2 skill 全部都打包开源到这个仓库中了:github.com/ConardLi/ga...
Skill 的具体安装方式大家可以到 Github 上查看:

这个 Skill 覆盖了 18 大类、79 个结构化模板。每个模板都是一份 Markdown 文件,里面定义了 JSON 或结构化自然语言模板、参数表、变体说明、典型案例。前面我们介绍的典型案例图,全部是用这套模板体系生成的。
三种运行模式
这个 Skill 设计了三种运行模式,适配不同的环境:

Mode A:Garden 本地模式
如果你有可以调用 gpt-image-2 的 API Key,Skill 会完整跑通整个流程 --- 选模板、渲染 prompt、调用生图脚本、图片自动落盘。这是最 "全自动" 的模式。
适合在 Claude Code、Cursor 等支持自定义工具,但是又不具备生图能力的 Agent 环境里使用。
Mode B:Host-Native 委托宿主
如果你在 Codex 这类环境里,Skill 就会退化成提示词工程指引 --- 它帮你选模板、填参数、渲染出最终 prompt,然后交给宿主自带的图像工具去执行。
这个模式的好处是不需要你自己配 API Key,直接用平台的能力就行。
Mode C:Advisor 顾问模式
如果你的 Agent 环境完全没有图像工具(比如纯文本的 Agent),你也没有 gpt-image-2 的 API Key,Skill 就会变成一个高质量的生图 prompt 顾问。它依然会帮你走完模板选择和参数填充的流程,最终把渲染好的 prompt 打印出来,你自己拿去 ChatGPT / Lovart 这些平台取用就可以。
怎么用?
具体怎么装、怎么跑,取决于你用的 Agent 环境,下面我们按常见场景说一下。
场景一:Codex
Codex 自带图像生成工具,属于 Mode B。
你只需要把 garden-skills 仓库中的 gpt-image-2 Skill 安装到你的 Codex 的工作目录(放到 .claude/skills 目录下):

然后直接对 Codex 说你想生成什么图,Codex 会读取 Skill 里的模板,帮你渲染 prompt,然后调用自己的图像工具出图。

场景二:Claude Code / Cursor 等 Agent(自配 API)
这类环境通常没有内置图像工具,但你可以自己配 OpenAI API Key。
首先还是要把 garden-skills 仓库中的 gpt-image-2 Skill 安装到你的 Agent 的工作目录。然后配置如下环境变量:
- ENABLE_GARDEN_IMAGEGEN=true ,代表要启用本地的 API Key 来生成图片
- OPENAI_BASE_URL=xxx ,自定义的生图地址
- OPENAI_API_KEY=xxx ,自定义 API Key

配好环境变量后,Skill 进入 Mode A,完整跑通 "模板 → prompt → 调脚本 → 出图落盘" 的全流程。

然后你对 Agent 说想生成什么图就行了,Skill 会自动处理后面的一切。
任务完成后,它会帮你把图片和原始提示词生成到一个本地固定目录中:

场景三:ChatGPT Web / Lovart / 任何有生图能力的对话界面
这个场景下你可以把 Skill 当作 prompt 工程的参考手册。
依然同第二步一样,在 Claude Code / Cursor 等 Agent 中配置好这个 Skill,但是不需要配置任何环境变量。

然后,你就可以直接和 Agent 发出你的绘图需求,Agent 会帮你返回结构化的提示词:

然后你可以把这段提示词粘贴到 ChatGPT 或 Lovart 的对话框里直接使用。

这样做虽然多了一步手动操作,但 prompt 质量会比随手写高不少。
模板体系一览
整个 Skill 的模板按 18 个分类组织,完整列表:
| 分类 | 模板数 | 案例数 | 典型方向 |
|---|---|---|---|
| 学术配图 | 9 | 18 | pipeline 图、架构图、Graphical Abstract、答辩首页 |
| 素材资产 | 2 | 4 | 拟物图标集、游戏截图 mockup |
| 头像人设 | 5 | 10 | 风格迁移头像、角色网格、3D 图标、贴纸、历史系列 |
| 品牌包装 | 4 | 8 | 品牌识别板、吉祥物套装、化妆品包装、饮料标签 |
| 图像编辑 | 5 | 10 | 背景替换、局部替换、杂物去除、产品精修、人像修改 |
| 网格拼贴 | 4 | 8 | 2×2 套装、lookbook、多风格拼贴、动漫立项板 |
| 信息图 | 6 | 12 | 手绘风、便当格、对比图、步骤教程、KPI 仪表盘 |
| 地图 | 4 | 8 | 美食地图、旅行路线、城市风貌、门店分布 |
| 人物肖像 | 4 | 8 | 商务肖像、创始人大片、虚拟主播、角色设定表 |
| 海报活动 | 4 | 8 | 品牌海报、Campaign KV、Web Banner、杂志封面 |
| 产品视觉 | 5 | 10 | 爆炸视图、白底主图、影棚大片、礼盒展示、生活场景 |
| 场景插画 | 4 | 8 | 治愈日常、概念大场景、绘本内页、极简氛围 |
| 演示文档 | 4 | 8 | 高密度讲解 Slide、政策风、商业报告页、教学示意图 |
| 叙事序列 | 5 | 10 | 四格漫画、漫画分镜、动漫 KV、人物关系图、步骤流程 |
| 技术架构图 | 7 | 14 | 系统架构、流程图、时序图、状态机、ER 图、思维导图、拓扑 |
| 字体排版 | 2 | 4 | 大字主张海报、中英双语版式 |
| UI 样机 | 5 | 10 | 直播电商、社交平台、落地页、聊天界面、短视频封面 |
| 编辑工作流 | 5 | 10 | 背景替换、局部替换、杂物去除、精修、人像编辑 |
全部模板和案例都在 Skill 仓库和案例网站上可以直接查看和使用。
最后
如果你也对 GPT-Image-2 生图感兴趣,可以做两件事:
- 去案例网站(gpt-image2.mmh1.top/)翻翻,找到你感兴趣的... prompt 试试
- 如果你在用 Codex / Claude Code / Cursor 之类的 Agent 环境,把 garden-skills(github.com/ConardLi/ga...
模板和案例会持续更新,欢迎 star 和贡献。有问题可以在 GitHub 上开 issue。
如果你想第一时间收到 GPT-Image-2 的新玩法更新,可以 Star 我的 GitHub 仓库:github.com/ConardLi/ga...