如何用 Midjourney 弥补 DALL-E 的不足

纵观各个 AI 绘图工具,DALL-E 无疑是最独特的一个。和 ChatGPT 一样,DALL-E 拥有出色的语义理解能力,用户可以根据提示词非常精确地控制画面的内容,但它生成的图片却缺乏一些艺术感。Midjourney 则相反,它像一个理解力比较弱,但艺术表达力比较强的艺术家。它生成的图像质感和艺术效果都很棒。

那么,有没有可能,让 Midjourney 能够利用 DALL-E 出色的语义理解能力或构图能力呢?或者说,用 Midjouney 提升 DALL-E 的画质。本文将会用实际案例进行探讨。

单独用DALL-E

我们都知道,DALL-E 在生成真人照片方面效果很差。不仅皮肤缺乏质感,甚至还会出现眼睛残缺的现象。比如下面这副照片:

Prompt: Photo of a young woman in her early 20s, with short, vibrant purple hair, is skateboarding in a bustling cityscape at sunset. She wears a graphic t-shirt, ripped jeans, and bright red sneakers. The motion of her skateboarding is captured in a dynamic pose as she skillfully navigates a skate park with graffiti art in the background. The setting sun casts long shadows, adding drama to the scene.

提示词: 照片中,一名 20 岁出头的年轻女子留着一头紫色的活力短发,在夕阳西下的繁华都市中玩滑板。她身穿图案 T 恤、破洞牛仔裤和鲜红色运动鞋。当她熟练地穿梭于背景为涂鸦艺术的滑板公园时,她滑板的动作被动态地捕捉下来。夕阳投下长长的阴影,为场景增添了戏剧性。

DALL-E 非常忠实地呈现了提示词所描述的画面。但仔细看来,人物的皮肤还是有些塑料感。仔细看眼睛,还是有些残缺的。

单独用Midjourney

那么这张图用 Midjourney 画出来效果会怎样呢?

首先,Midjourney 的提示词并不像 DALL-E 3 一样,可以像写 ChatGPT 提示词一样,用自然语言来写。那些无关画面内容的介词, 冠词等只是噪音,最好不要放在里面。

例如上面的提示词,在 Midjourney 里面可以这样写:

Medium: Photo. Subject: Young woman in her early 20s with short, vibrant purple hair, skateboarding in a bustling cityscape at sunset, wearing a graphic t-shirt, ripped jeans, bright red sneakers. Dynamic pose as she navigates a skate park with graffiti art. Emotion: Energetic. Lighting: Sunset casting long shadows. Scene: Skate park in a cityscape, graffiti art in background. Style: Realistic, dynamic motion capture --ar 1:1

媒介: 照片。主题: 20 岁出头的年轻女子,一头活力四射的紫色短发,身穿图案 T 恤、破洞牛仔裤和鲜红色运动鞋,在夕阳西下的繁华都市中玩滑板。她在涂鸦艺术的滑板公园中穿梭,姿势动感十足。情绪: 充满活力。光线:夕阳投下长长的阴影。场景:城市景观中的滑板公园,涂鸦艺术 城市景观中的滑板公园,背景为涂鸦艺术。风格: 逼真、动态的动作捕捉 --ar 1:1

因为画面中要阐述的内容比较多,用这种结构化的写法,我认为会让 Midjourney 更容易理解一些。为了更方便地在 ChatGPT 中生成 Midjourney 的提示词,我创建了一个 GPTs,名字叫 SuperDalle。它可以生成 4 张图像和 Midjourney 提示词,详细介绍可以看这篇文章:这个 GPTs 让 DALL-E 绘图无所不能!

下图就是用 SuperDalle 生成的图片和 Midjourney 提示词。

我觉得第一张图片比较符合提示词的描述。那么 Midjourney 怎样表现出这个画面呢?把第一张图对应的 Midjourney 提示词输入,得出下面四张图片:

人物的皮肤质感,照片整体的光感都不错。但跟提示词描述的一点也不符。图中的女孩,根本就没有玩滑板的姿势。这个跟宽高比没有关系。我把宽高比设为 9:16 是这个效果:

DALL-E结合Midjourney

这时候,DALL-E 就派上用场了。我把 DALL-E 生成的图片作为参考图,并赋予权重 2,然后提交给 Midjourney。完整的提示词和生成的图片如下:

Medium: Photo. Subject: Young woman in her early 20s with short, vibrant purple hair, skateboarding in a bustling cityscape at sunset, wearing a graphic t-shirt, ripped jeans, bright red sneakers. Dynamic pose as she navigates a skate park with graffiti art. Emotion: Energetic. Lighting: Sunset casting long shadows. Scene: Skate park in a cityscape, graffiti art in background. Style: Realistic, dynamic motion capture --ar 1:1 --s 1000 --v 5.2 --iw 2

我觉得右下角的图片姿势比较帅。于是进行了微调,得出了下面四张图片。

放大左下角的图片:

如果这张图和原先的提示词还有偏差的话,还可以使用 Midjourney 的局部重绘 (inpainting) 功能。

总结

DALL-E 有如此好的语义理解功能,是因为它基于 Transformer 模型。而 Midjourney 和 Stable Diffusion 一样,是基于 Diffusion 模型。我们看到,在一些情况下,可以综合利用两种模型的优点,创造出即可控又有艺术感的图像。

当然,不是每种情况下都可以让 Midjourney 借用 DALL-E 的优势。只要我们对这两个模型都熟悉的话,就能了解哪些情形能综合发挥两者的优势,享受这种融合的乐趣!

💡 相关文章

Midjourney vs. DALL-E 3

最后,如果对 AI 绘图感兴趣的话,欢迎加入我们的交流群。

欢迎加我微信vito_chat入群免费交流学习。

欢迎访问我的免费学习AI网站:

myaiforce.com.cn/

原文地址:

myaiforce.com.cn/overcoming-...

相关推荐
想成为高手4993 小时前
生成式AI在教育技术中的应用:变革与创新
人工智能·aigc
z千鑫17 小时前
【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南
人工智能·pytorch·深度学习·aigc·tensorflow·keras·codemoss
程序员X小鹿21 小时前
AI视频自动剪辑神器!点赞上万的影视剧片段,一键全自动剪辑,效率提升80%!(附保姆级教程)
aigc
学习前端的小z1 天前
【AIGC】如何准确引导ChatGPT,实现精细化GPTs指令生成
人工智能·gpt·chatgpt·aigc
刘悦的技术博客2 天前
MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署
ai·aigc·python3.11
xindoo2 天前
如何用GPT-4o解读视频
aigc·gpt-3·音视频
起名字真南2 天前
【C++】深入理解 C++ 中的继承进阶:多继承、菱形继承及其解决方案
java·jvm·c++·chatgpt·aigc
Jartto2 天前
2025年AI革命:斯坦福李飞飞教授揭秘多模态智能体的未来
aigc
白云如幻2 天前
最新智能AI问答运营系统(SparkAi)一站式AIGC系统,GPT-4.0/GPT-4o多模态模型+联网搜索提问+AI绘画+管理后台,用户会员套餐
人工智能·ai作画·midjourney
AI小欧同学2 天前
【AIGC】ChatGPT提示词Prompt解析:情感分析,分手后还可以做朋友吗?
chatgpt·prompt·aigc