GPT-4o 图像生成:重新定义 AI 视觉创作边界

GPT-4o,其名称中的 "o" 代表 "Omni"(全能),强调其强大的多模态交互能力。


在上月26号,OpenAI旗下的GPT-4o基础模型迎来了一次更新。

这次更新主要是它的生图能力。

在我印象中,生图最强的软件是Midjourney!

在国产软件中,能生成高质量图片的AI软件也不少,比如即梦、星流、可灵......

所以对这次CloseAI的升级起初真没当回事,但在试用了之后,不得不说:确实强!


聊聊我的使用体验

1、丰富的想象力

曾经很长一段时间,人类引以为傲的就是**"我们拥有丰富的想象力"**,但现在可以说想象力不仅仅是人类的特权了。

现在AI经过训练,喂给他的知识比某一个人类个体大得多,所以它的想象力在某些情况下比人类更天马行空。

下图是一个怪异的机器人和羊驼在赛跑,如果让你将机器人和羊驼结合形成一个新的"物种",你能想象出是什么样子吗?

(可以闭上眼睛思考3秒钟)

我没能想象出来,所以我将这张图片扔给了GPT,让它帮我创作一张 机器人和羊驼结合的新物种。

它创造的新物种如下:

此时它就是神一般的存在!

是不是还挺充满科技感和想象力的呢?


2、转换成吉卜力

可以直接把一张照片改成宫崎骏那种动漫风,或者换成别的风格。

这两天刷朋友圈,估计已经看到不少类似的动漫图了,大概率就是用4o新模型做出来的。

比如我要将上面的图片转换成吉卜力风格

复制代码
提示词:
convert this photo to studio ghibli style anime

3、一句话改图

它现在能准确的理解中文,只要将需求讲清楚,那么它大概率能生成一张你满意的图片。

但也不是每次效果都特别好,如果不满意就抽卡重新做。


4、4 格漫画

就是一张图片被分成4个部分,每个部分有一副图片,图片风格相似,人物长相一致,能有故事性。

复制代码
我扔给GPT-4o的提示词:帮我生成一个打工狗日常无聊工作的 4 格漫画图

GPT 的思考:

复制代码
我会为你设计一组 打工狗日常无聊工作的 4 格漫画,风格幽默、自嘲,整体采用简洁的线条风格,适合社交媒体分享。内容大致如下:
标题:《打工狗的一天》
- 第一格:早上 9:00,打工人坐在工位前,满脸期待,内心想着:"今天一定要高效工作!"(背景明亮,充满斗志的气氛)
- 第二格:上午 11:00,电脑屏幕上是打开的 Excel,打工人面无表情,偷偷摸鱼刷手机。(背景变得平淡无奇)
- 第三格:下午 15:00,打工人疯狂点鼠标,但其实只是在"假装很忙"点开又关闭各种窗口。(背景开始带点暗淡)
- 第四格:下班 18:00,打工人满脸倦容,想着:"今天好忙啊!但......我到底忙了啥?"(背景彻底昏暗)
整体风格:
- 采用简单但富有表现力的漫画线条风格
- 幽默夸张的表情变化
- 黑白或扁平化色彩风格
我马上为你生成图片,稍等片刻! 🎨{"prompt":"A four-panel comic strip in a simple, humorous cartoon style depicting the daily life of an overworked office worker ("打工狗"). \n1st panel: 9:00 AM - The worker sits at their desk with enthusiasm, thinking, "Today, I will be super productive!" Bright and optimistic background.\n2nd panel: 11:00 AM - The worker stares blankly at an open Excel spreadsheet while secretly browsing their phone. Background becomes dull.\n3rd panel: 3:00 PM - The worker aggressively clicks the mouse, pretending to be busy while randomly opening and closing windows. Slightly darker background.\n4th panel: 6:00 PM - The worker looks exhausted, thinking, "I was so busy today... but what did I actually do?" Background completely darkened. \nThe style is minimalistic and expressive, focusing on exaggerated facial expressions and body language.","size":"1024x1024"}

5、生成贴纸形式

将图片转换成贴纸的形式,只需将你要转换的图片上传,然后输入下面的提示词即可。

复制代码
提示词:
convert this photo to stickers style

原始图片⬇️:

生成的简贴纸如下⬇️:


6、海报创作

复制代码
我和 GPT-4o 交互的提示词如下:
以下面这个提示为准,帮我创作一个海报图片:
You are the world's most awarded creative director in the world's most awarded creative ad agency. Create an image of a great ad for Saratoga water. Here find attached an image of the product.

最后

其实还有很多例子,在这就不一一展示了。

看到此,设计师朋友有没有危机感呢???

在人工智能发展史上,GPT-4o 的诞生无疑是一座里程碑。

作为 OpenAI 在 2025 年推出的核心功能,其图像生成能力以 "所想即所见" 的颠覆性体验,将多模态交互推向了新高度。

GPT-4o 让 "用嘴 P 图" 成为现实。

随着多模态能力的持续深化,这场由 GPT-4o 开启的视觉革命,或将催生一个 "AI 即设计师" 的全新时代。

相关推荐
大模型真好玩24 分钟前
基于 MCP Http SSE模式的天气助手智能体开发实战(一文带你了解MCP两种开发模式)
人工智能·python·mcp
小华同学ai24 分钟前
25.9K star!AI一键生成高清短视频,这个开源神器让内容创作起飞!
人工智能·开源·github
西红柿土豆30 分钟前
基于BP神经网络的杂草智能识别系统
人工智能
风清扬雨32 分钟前
计算机视觉中的基于网格的卷绕算法全解析
人工智能·算法·计算机视觉
-嘟囔着拯救世界-38 分钟前
1️⃣ 智能体基础入门教学(2025年全新版本)
人工智能·python·aigc·教程·ai agent·智能体·coze
欣然~1 小时前
OpenCV 在树莓派上进行实时人脸检测
人工智能·opencv·计算机视觉
Ombré_mi1 小时前
多模态技术概述(一)
人工智能·语言模型·aigc
LaughingZhu1 小时前
PH热榜 | 2025-04-03
前端·数据库·人工智能·经验分享·mysql·开源·产品运营
浪淘沙jkp1 小时前
大模型学习五:‌DeepSeek Janus-Pro-7B 多模态半精度本地部署指南:环境是腾讯cloudstudio高性能GPU 16G免费算力
学习·deepseek·janus-pro·janus-pro-7b
硬水果糖2 小时前
神经网络之损失函数
人工智能·深度学习·神经网络