GPT-4o 图像生成今起免费!奥特曼坐镇紧急发布,指令遵循 / 文本控制表现惊艳

OpenAI 全量开放 GPT-4o 图像生成 能力,这回免费用户第一时间上车!

即日起在 ChatGPT 和 Sora 中,向所有 Plus、Pro、Team 和免费用户推出。

一夜之间,各种实测结果刷屏。最惊艳的莫过于对文本的处理能力。

比如,4o 可以 100% 还原文字内容,且指定文字摆放位置。

男人右手举着 "a few",左手举着 "words"

还能像连续剧一样,一边准确生成文字,一边变换人物动作。

仔细对比两张图,第一张白板中的男人倒影和第二张图也对应上了。

昨晚 OpenAI 突然宣布要开个小直播发布,这回奥特曼出现了(前情:GPT-4.5 发布时他由于带娃没来)。

直播中展示了各种玩法,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

直接现场咔嚓一张自拍,然后立马转成动漫风格。

顺带官方玩梗制作 meme 图,要求在图片中添加 "feel the agi"。(没错,生成时还知道将小写换成更符合的大写)

现在,打开 ChatGPT,即可尝试这些能力。

实测生成速度很快(大约十几秒一张),但普通用户每天仅有 3 次体验机会。

API 预计将在未来几周内逐步推出。

这波主打一个美观又实用

我们终于迈向了这种真正集成的多模态模型。

按照官方介绍,作为多模态模型的 4o 现在终于补齐了一块重要拼图------图片生成。

而且主打一个美观实用两手抓。

话不多说,我们直接来看其能力升级的具体表现。

各项能力大升级

首先,OpenAI 表示 4o 现在能精确融合符号和图片了。

比如直接给一段文字,然后生成一张制作精美的菜单:

而且支持在多轮对话中逐步调整图片内容和风格。

类似下面这样,提供一张猫猫原图,然后一步步创建一个游戏角色:




此外还非常注重细节,官方称 4o 可以处理多达 10-20 个不同的物体,而其他模型一般在处理 5-8 个物体时就会遇到困难。


除了上述,4o 在生成真实图像方面也表现出色。


连现实版 "照猫画虎" 也有了(doge):

网友实测 ing

看完官方宣传效果,网友们也赶紧来了一波实测~

经典梗图第一时间申请出战,画面还真毫无违和感 hhh。

甚至,复现同款书写图也是不在话下:

One More Thing

话说最近这两天也过于热闹了,DeepSeek、OpenAI 和谷歌几乎同台开战。

值得一提的是,昨晚 11 点(北京时间)OpenAI 突然宣布将有小发布,而 DeepSeek 刚刚发布了 DeepSeek-v3-0324 的官方技术报告。

不知道是不是被 DS 逼出来的新发布呢?(doge)

参考链接:

1openai.com/index/intro...

2x.com/chatgpt21/s...

欢迎在评论区留下你的想法!

--- ---

相关推荐
冬奇Lab4 分钟前
Skill 系列(06):Skill 工程化与治理——路由准确率 38%、压缩节省 76%
人工智能·开源·agent
IT_陈寒2 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷3 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo3 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9203 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了3 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下4 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329705 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby5 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI5 小时前
Claude Code 从入门到精通,一步到位
人工智能