Midjourney角色一致功能解读

在无数AI绘画创作者的胡呼声中,Midjourney终于推出了"角色一致性"功能,该功能可在新图像中一致地重新创建角色。AI绘画中的主要障碍终被打破。

这是因为大多数AI图像生成器都依赖于"扩散模型",这些工具类似于或基于Stability AI的Stable Diffusion开源图像生成算法,该算法的工作原理大致是获取用户输入的文本并尝试逐像素拼凑图像。-与该描述相匹配的像素,是从数百万张人类创建的图像的大量(且有争议的)训练数据集中的类似图像和文本标签中学习到的。

添加图片注释,不超过 140 字(可选)

角色一致性对于AI绘画的意义

与基于文本的大型语言模型(LLM)(例如OpenAI的ChatGPT或Cohere的新Command-R)的情况一样,所有生成式AI应用程序的问题在于其响应不一致:AI会为每个提示生成新的内容即使提示重复或使用一些相同的关键字,也应输入该内容。

在Midjourney 的例子中,就是图像。但是,如果你想为电影、小说或漫画制作故事时,你希望相同的一个或多个角色在其中移动并出现在不同的场景中,并具有不同的面部表情和表情,这在Midjourney 以往的版本中是无法实现的。

这种确切的场景对于叙事的连续性通常是必要的,但到目前为止,使用生成式人工智能很难实现。但Midjourney现在正在尝试解决这个问题,引入了一个新标签"-cref"("角色参考"的缩写),用户可以将其添加到Midjourney Discord中文本提示的末尾,并尝试匹配角色的面部表情用户粘贴到所述标签后的URL中的特征、体型,甚至服装。

随着功能的进步和完善,Midjourney可能会进一步从一个很酷的玩具或创意来源变成一个更专业的生产力工具!

Midjourney角色一致性功能使用攻略

该标签最适合与之前生成的Midjourney 图像配合使用。例如,用户的工作流程将首先生成或检索先前生成的角色的URL。

让我们从头开始,假设我们正在生成一个带有以下提示的新角色:"一个肌肉发达的秃头男人,留着胡子,戴着眼罩。"

添加图片注释,不超过 140 字(可选)

我们先将最骂你的那张图像放大,然后在Midjourney Discord服务器中按住Control键单击它以找到"复制链接"选项。

添加图片注释,不超过 140 字(可选)

然后,我们可以在"穿着白色燕尾服站在别墅中--cref[URL]"中输入新的提示,并粘贴我们刚刚生成的图像的URL,Midjourney将尝试在我们的新内容中生成与之前相同的角色。键入的设置。

添加图片注释,不超过 140 字(可选)

此外,用户可以通过将标签"-cw"后跟数字1到100应用到新提示的末尾(在"--cref[URL]"字符串,就像这样:"--cref[URL]--cw 100。""cw"数字越低,结果图像的方差就越大。"cw"数字越高,方差越大。生成的新图像将严格遵循原始参考图像。

当输入非常低的"cw 8"实际上返回我们想要的:白色燕尾服。尽管现在它已经去掉了我们角色独特的眼罩。

添加图片注释,不超过 140 字(可选)

继续"不同区域"

添加图片注释,不超过 140 字(可选)

​虽然眼罩戴错了眼睛........但与期望已经非常接近了

你还可以使用两个并排的"--cref"标签及其各自的URL将多个字符合并为一个字符。

该功能刚刚于近期已在Midjourney国内版同步上线,喜欢AI绘画的朋友们快去试试吧!

Midjourney国内版http://xhs.midjourney9.com//?channel=101545

移动端可以复制链接在浏览器中打开

相关推荐
acstdm2 分钟前
DAY 48 CBAM注意力
人工智能·深度学习·机器学习
澪-sl15 分钟前
基于CNN的人脸关键点检测
人工智能·深度学习·神经网络·计算机视觉·cnn·视觉检测·卷积神经网络
羊小猪~~31 分钟前
数据库学习笔记(十七)--触发器的使用
数据库·人工智能·后端·sql·深度学习·mysql·考研
摸爬滚打李上进1 小时前
重生学AI第十六集:线性层nn.Linear
人工智能·pytorch·python·神经网络·机器学习
HuashuiMu花水木1 小时前
PyTorch笔记1----------Tensor(张量):基本概念、创建、属性、算数运算
人工智能·pytorch·笔记
lishaoan771 小时前
使用tensorflow的线性回归的例子(四)
人工智能·tensorflow·线性回归
AI让世界更懂你1 小时前
【ACL系列论文写作指北15-如何进行reveiw】-公平、公正、公开
人工智能·自然语言处理
牛客企业服务2 小时前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
视觉语言导航3 小时前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
**梯度已爆炸**3 小时前
自然语言处理入门
人工智能·自然语言处理