GPT-4o 图像生成:重新定义 AI 视觉创作边界

GPT-4o,其名称中的 "o" 代表 "Omni"(全能),强调其强大的多模态交互能力。


在上月26号,OpenAI旗下的GPT-4o基础模型迎来了一次更新。

这次更新主要是它的生图能力。

在我印象中,生图最强的软件是Midjourney!

在国产软件中,能生成高质量图片的AI软件也不少,比如即梦、星流、可灵......

所以对这次CloseAI的升级起初真没当回事,但在试用了之后,不得不说:确实强!


聊聊我的使用体验

1、丰富的想象力

曾经很长一段时间,人类引以为傲的就是**"我们拥有丰富的想象力"**,但现在可以说想象力不仅仅是人类的特权了。

现在AI经过训练,喂给他的知识比某一个人类个体大得多,所以它的想象力在某些情况下比人类更天马行空。

下图是一个怪异的机器人和羊驼在赛跑,如果让你将机器人和羊驼结合形成一个新的"物种",你能想象出是什么样子吗?

(可以闭上眼睛思考3秒钟)

我没能想象出来,所以我将这张图片扔给了GPT,让它帮我创作一张 机器人和羊驼结合的新物种。

它创造的新物种如下:

此时它就是神一般的存在!

是不是还挺充满科技感和想象力的呢?


2、转换成吉卜力

可以直接把一张照片改成宫崎骏那种动漫风,或者换成别的风格。

这两天刷朋友圈,估计已经看到不少类似的动漫图了,大概率就是用4o新模型做出来的。

比如我要将上面的图片转换成吉卜力风格

复制代码
提示词:
convert this photo to studio ghibli style anime

3、一句话改图

它现在能准确的理解中文,只要将需求讲清楚,那么它大概率能生成一张你满意的图片。

但也不是每次效果都特别好,如果不满意就抽卡重新做。


4、4 格漫画

就是一张图片被分成4个部分,每个部分有一副图片,图片风格相似,人物长相一致,能有故事性。

复制代码
我扔给GPT-4o的提示词:帮我生成一个打工狗日常无聊工作的 4 格漫画图

GPT 的思考:

复制代码
我会为你设计一组 打工狗日常无聊工作的 4 格漫画,风格幽默、自嘲,整体采用简洁的线条风格,适合社交媒体分享。内容大致如下:
标题:《打工狗的一天》
- 第一格:早上 9:00,打工人坐在工位前,满脸期待,内心想着:"今天一定要高效工作!"(背景明亮,充满斗志的气氛)
- 第二格:上午 11:00,电脑屏幕上是打开的 Excel,打工人面无表情,偷偷摸鱼刷手机。(背景变得平淡无奇)
- 第三格:下午 15:00,打工人疯狂点鼠标,但其实只是在"假装很忙"点开又关闭各种窗口。(背景开始带点暗淡)
- 第四格:下班 18:00,打工人满脸倦容,想着:"今天好忙啊!但......我到底忙了啥?"(背景彻底昏暗)
整体风格:
- 采用简单但富有表现力的漫画线条风格
- 幽默夸张的表情变化
- 黑白或扁平化色彩风格
我马上为你生成图片,稍等片刻! 🎨{"prompt":"A four-panel comic strip in a simple, humorous cartoon style depicting the daily life of an overworked office worker ("打工狗"). \n1st panel: 9:00 AM - The worker sits at their desk with enthusiasm, thinking, "Today, I will be super productive!" Bright and optimistic background.\n2nd panel: 11:00 AM - The worker stares blankly at an open Excel spreadsheet while secretly browsing their phone. Background becomes dull.\n3rd panel: 3:00 PM - The worker aggressively clicks the mouse, pretending to be busy while randomly opening and closing windows. Slightly darker background.\n4th panel: 6:00 PM - The worker looks exhausted, thinking, "I was so busy today... but what did I actually do?" Background completely darkened. \nThe style is minimalistic and expressive, focusing on exaggerated facial expressions and body language.","size":"1024x1024"}

5、生成贴纸形式

将图片转换成贴纸的形式,只需将你要转换的图片上传,然后输入下面的提示词即可。

复制代码
提示词:
convert this photo to stickers style

原始图片⬇️:

生成的简贴纸如下⬇️:


6、海报创作

复制代码
我和 GPT-4o 交互的提示词如下:
以下面这个提示为准,帮我创作一个海报图片:
You are the world's most awarded creative director in the world's most awarded creative ad agency. Create an image of a great ad for Saratoga water. Here find attached an image of the product.

最后

其实还有很多例子,在这就不一一展示了。

看到此,设计师朋友有没有危机感呢???

在人工智能发展史上,GPT-4o 的诞生无疑是一座里程碑。

作为 OpenAI 在 2025 年推出的核心功能,其图像生成能力以 "所想即所见" 的颠覆性体验,将多模态交互推向了新高度。

GPT-4o 让 "用嘴 P 图" 成为现实。

随着多模态能力的持续深化,这场由 GPT-4o 开启的视觉革命,或将催生一个 "AI 即设计师" 的全新时代。

相关推荐
NAGNIP7 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab8 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab8 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP12 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年12 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼12 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS12 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区13 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈13 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang14 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx