GPT-4o 图像生成:重新定义 AI 视觉创作边界

GPT-4o,其名称中的 "o" 代表 "Omni"(全能),强调其强大的多模态交互能力。


在上月26号,OpenAI旗下的GPT-4o基础模型迎来了一次更新。

这次更新主要是它的生图能力。

在我印象中,生图最强的软件是Midjourney!

在国产软件中,能生成高质量图片的AI软件也不少,比如即梦、星流、可灵......

所以对这次CloseAI的升级起初真没当回事,但在试用了之后,不得不说:确实强!


聊聊我的使用体验

1、丰富的想象力

曾经很长一段时间,人类引以为傲的就是**"我们拥有丰富的想象力"**,但现在可以说想象力不仅仅是人类的特权了。

现在AI经过训练,喂给他的知识比某一个人类个体大得多,所以它的想象力在某些情况下比人类更天马行空。

下图是一个怪异的机器人和羊驼在赛跑,如果让你将机器人和羊驼结合形成一个新的"物种",你能想象出是什么样子吗?

(可以闭上眼睛思考3秒钟)

我没能想象出来,所以我将这张图片扔给了GPT,让它帮我创作一张 机器人和羊驼结合的新物种。

它创造的新物种如下:

此时它就是神一般的存在!

是不是还挺充满科技感和想象力的呢?


2、转换成吉卜力

可以直接把一张照片改成宫崎骏那种动漫风,或者换成别的风格。

这两天刷朋友圈,估计已经看到不少类似的动漫图了,大概率就是用4o新模型做出来的。

比如我要将上面的图片转换成吉卜力风格

复制代码
提示词:
convert this photo to studio ghibli style anime

3、一句话改图

它现在能准确的理解中文,只要将需求讲清楚,那么它大概率能生成一张你满意的图片。

但也不是每次效果都特别好,如果不满意就抽卡重新做。


4、4 格漫画

就是一张图片被分成4个部分,每个部分有一副图片,图片风格相似,人物长相一致,能有故事性。

复制代码
我扔给GPT-4o的提示词:帮我生成一个打工狗日常无聊工作的 4 格漫画图

GPT 的思考:

复制代码
我会为你设计一组 打工狗日常无聊工作的 4 格漫画,风格幽默、自嘲,整体采用简洁的线条风格,适合社交媒体分享。内容大致如下:
标题:《打工狗的一天》
- 第一格:早上 9:00,打工人坐在工位前,满脸期待,内心想着:"今天一定要高效工作!"(背景明亮,充满斗志的气氛)
- 第二格:上午 11:00,电脑屏幕上是打开的 Excel,打工人面无表情,偷偷摸鱼刷手机。(背景变得平淡无奇)
- 第三格:下午 15:00,打工人疯狂点鼠标,但其实只是在"假装很忙"点开又关闭各种窗口。(背景开始带点暗淡)
- 第四格:下班 18:00,打工人满脸倦容,想着:"今天好忙啊!但......我到底忙了啥?"(背景彻底昏暗)
整体风格:
- 采用简单但富有表现力的漫画线条风格
- 幽默夸张的表情变化
- 黑白或扁平化色彩风格
我马上为你生成图片,稍等片刻! 🎨{"prompt":"A four-panel comic strip in a simple, humorous cartoon style depicting the daily life of an overworked office worker ("打工狗"). \n1st panel: 9:00 AM - The worker sits at their desk with enthusiasm, thinking, "Today, I will be super productive!" Bright and optimistic background.\n2nd panel: 11:00 AM - The worker stares blankly at an open Excel spreadsheet while secretly browsing their phone. Background becomes dull.\n3rd panel: 3:00 PM - The worker aggressively clicks the mouse, pretending to be busy while randomly opening and closing windows. Slightly darker background.\n4th panel: 6:00 PM - The worker looks exhausted, thinking, "I was so busy today... but what did I actually do?" Background completely darkened. \nThe style is minimalistic and expressive, focusing on exaggerated facial expressions and body language.","size":"1024x1024"}

5、生成贴纸形式

将图片转换成贴纸的形式,只需将你要转换的图片上传,然后输入下面的提示词即可。

复制代码
提示词:
convert this photo to stickers style

原始图片⬇️:

生成的简贴纸如下⬇️:


6、海报创作

复制代码
我和 GPT-4o 交互的提示词如下:
以下面这个提示为准,帮我创作一个海报图片:
You are the world's most awarded creative director in the world's most awarded creative ad agency. Create an image of a great ad for Saratoga water. Here find attached an image of the product.

最后

其实还有很多例子,在这就不一一展示了。

看到此,设计师朋友有没有危机感呢???

在人工智能发展史上,GPT-4o 的诞生无疑是一座里程碑。

作为 OpenAI 在 2025 年推出的核心功能,其图像生成能力以 "所想即所见" 的颠覆性体验,将多模态交互推向了新高度。

GPT-4o 让 "用嘴 P 图" 成为现实。

随着多模态能力的持续深化,这场由 GPT-4o 开启的视觉革命,或将催生一个 "AI 即设计师" 的全新时代。

相关推荐
Dongsheng_20191 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——机电轴承的应用
人工智能·深度学习·汽车
江瀚视野1 小时前
汽车价格战全面熄火了?不卷价格该卷什么?
人工智能·自动驾驶
资讯全球2 小时前
2025年智慧差旅平台推荐
人工智能
en-route2 小时前
从零开始学神经网络——LSTM(长短期记忆网络)
人工智能·深度学习·lstm
视觉语言导航3 小时前
CVPR-2025 | 具身导航指令高效生成!MAPInstructor:基于场景图的导航指令生成Prompt调整策略
人工智能·机器人·具身智能
wanhengidc3 小时前
云手机与人工智能之间的关系
人工智能·智能手机
Sic_MOS_780168243 小时前
超高密度2kW GaN基低压电机驱动器的设计
人工智能·经验分享·汽车·集成测试·硬件工程·能源
老坛程序员3 小时前
抓包解析MCP协议:基于JSON-RPC的MCP host与MCP server的交互
人工智能·网络协议·rpc·json·交互
努力毕业的小土博^_^3 小时前
【深度学习|学习笔记】详细讲解一下 深度学习训练过程中 为什么 Momentum 可以加速训练?
人工智能·笔记·深度学习·学习·momentum