GPT-4o 多模态图像生成功能解析 | 2025 年第 13 周草梅周报

本文在草梅友仁的博客发布和更新，并在多个平台同步发布。如有更新，以博客上的版本为准。您也可以通过文末的 原文链接 查看最新版本。

前言

欢迎来到草梅周报！这是一个由草梅友仁基于 AI 整理的周报，旨在为您提供最新的博客更新、GitHub 动态、个人动态和其他周刊文章推荐等内容。

AI 动态

近期最火爆的 AI 相关内容毫无疑问就是 OpenAI 最新发布的 GPT-4o 的多模态图像生成功能。

这一次的 GPT-4o 多模态图像生成功能相较于以往的 Stable Diffusion 模型的随机抽卡式图片生成有了极大改进，借助 GPT-4o 自身的大模型能力，GPT-4o 可以精确的理解用户的意图，从而生成用户想要的图片。

以《OpenAI GPT-4o 推出原生图像生成功能，这次升级有哪些看点？ - WouldYouKindly 的回答 - 知乎》为例，通过一张模糊的原图，就能够直接生成多种风格的图片。

例如哆啦 A 梦风格。

当然了，笔者也亲自尝试了一下。

先是随便生成了一张图片。

然后让它改图。

可见，它精确的理解了我的想法，甚至理解了"黑话"，例如"抽卡"、"出金"等，还加了我没有提到的"NEW!"和 5 星。

当然，我这里只是用免费账号试用了一下，目前 ChatGPT 官网对免费用户的限制还是比较大的，基本上十分钟才能生成一张。如有需要，可以开通 20 美元一月的 plus 账号使用，额度会更高。

正如当初 GPT-3.5 对写作和编程的降维打击，现在 GPT-4o 也正式形成了对绘画、平面设计、图片生成等的降维打击，比当初 Stable Diffusion 的打击还要严重的多。

如果说当初 Stable Diffusion 生成的图片还存在的浓浓的 AI 风，那么现在 GPT-4o 生成的图片已经到了可以以假乱真的地步了，除了部分细节，已经很难分辨十分由 AI 生成了。

同时，这一次 GPT-4o 的更新也告诉我们一个道理：有时候，AI 大模型的一次更新，就能干翻无数人引以为豪的技能。

在可预见的未来里，这样的事情还会越来越多。

因此，在 AI 时代已经来临的当下，每一个人都不能独善其身。

只有继续学习使用 AI，才能在接下来的 AI 时代，保持自己的竞争力。

开源项目推荐

comfyanonymous/ComfyUI

一个强大的和模块化的可视化 AI 引擎和应用程序，通过管道来稳定的生成 AI 图片。

GitHub Release

wechat-official-helper

v1.0.3 - 2025-03-30 00:59:48

摘要: 版本 1.0.3 更新摘要

Bug 修复:

优化 OAuth 登录页面，提升用户体验和界面美观度。

其他博客或周刊推荐

总结

本周的更新和动态如上所示。感谢您的阅读！您可以通过以下方式订阅草梅周报的更新：

博客：草梅友仁的博客
RSS ：草梅周报
公众号 ：草梅友仁的后花园
邮箱订阅 ：草梅友仁的博客订阅

往期回顾

DeepSeek-R1 编码体验与 Browser-Use 智能浏览器控制 | 2025 年第 12 周草梅周报 - 2025-03-23 21:52:50
Mermaid 流程图与 Open-Sora | 2025 年第 11 周草梅周报 - 2025-03-16 19:23:39
Manus 与 OpenManus：AI 助手对比及开源复现 | 2025 年第 10 周草梅周报 - 2025-03-09 19:40:03

本文作者：草梅友仁

本文地址：blog.cmyr.ltd/archives/20...

GPT-4o 多模态图像生成功能解析 | 2025 年第 13 周草梅周报

前言

AI 动态

开源项目推荐

GitHub Release

wechat-official-helper

v1.0.3 - 2025-03-30 00:59:48

最新 GitHub 加星仓库

其他博客或周刊推荐

阮一峰的网络日志

HelloGitHub 月刊

老胡的周刊

阿猫的博客

潮流周刊

总结

往期回顾