AI写真:ControlNet 之 InstantID

大家好,我是每天分享AI应用的萤火君!

上一篇介绍了使用 IPAdapter-FaceId 进行AI写真创作的方法,反响不错,还没看过的同学可以点击这个链接前往:AI写真:Stable Diffusion 之 IPAdapter-FaceId - 掘金 (juejin.cn)

但是 IPAdapter-FaceId 目前只在 SD 1.5 模型上表现较好,SDXL 模型上的表现较差,不能用于实际生产。可是很多同学已经在使用SDXL了,而且SDXL确实整体上出图效果更好,怎么办?

这篇文章就来给大家介绍一个在SDXL中创作AI写真的稳定方法:使用 InstanID。

InstantID,翻译为身份标识,这是一个ControlNet模型,其核心能力是由国内的小红书团队开发的。InstantID可以提取人物的面部信息,然后在生成的人物图片中使用此面部。只需要人物的一张正面照片,就可以生成此人物的多种风格图片,正适合来搞AI写真。

效果展示

废话不多说,还是先看效果(大家可以猜猜此人是谁,文中会揭晓答案):

更多带生成参数的图片下载请看文末。

安装方法

之前我介绍过 InstantID的安装方法,请看这篇文章:Stable Diffusion基础:ControlNet之身份标识 - 掘金 (juejin.cn)

使用InstantID

这里以 Stable Diffusion WebUI 为例,ComfyUI 的使用示例见下文。

因为 InstantID 仅能在 SDXL 模型下使用,所以本文将使用 SDXL 模型进行演示。

基本设置

打开"文生图"页面,首先我们需要选择SD基础模型(模型下载方式见文末)、设置提示词和负向提示词。

然后我们简单设置下生成参数,如下图所示。

你可以直接使用我这几个参数的值,简单介绍下:

1、采样器:DPM++系列在在采样质量和效率上都比较高,是目前效果最优秀的反向扩散采样算法之一。

2、调度类型:用于控制采样过程中的噪声水平 ,这是 WebUI 1.9.0 之后从采样器分离出来的参数,可以单独设置,使用更灵活。Karras 噪声计划在初始采样步骤中的噪音水平较高,而在结尾采样步骤中的噪音水平较低,实验表明这样有助于提高生成图片的质量。

3、采样步数:一般设置为20-30,可根据具体效果调整。

4、使用SDXL模型时,宽度和高度需要设置为1024以上,这里是一张垂直图,比例为3:4。

5、生成次数和每次数量:一次多生成几张,方便选择。生成次数是独立的生成几次,消耗时间根据次数加倍;每次数量是单次生成内的输出图片数量,比较消耗显存。

6、提示词引导系数:对于InstantID,不要设置的太高,3-5最佳,根据实际情况选择。

7、图像生成种子:-1代表随机数,每次生成都会产生新的变化。

ControlNet设置

InstantID 是通过 ControlNet 发挥作用的,我们重点看下相关设置。

这里需要两个 ControlNet,一个用于控制面部特征,另一个用于控制面部姿势(可选)。

先看第一个ControlNet,上传一张参考图片,勾选"启用"和"完美匹配像素"。"完美匹配像素"用于控制从参考图片中提取的特征信息的分辨率,以更加匹配生成图片的尺寸,无脑勾选就是了。

"控制网类型"勾选Instant-ID,注意第一个ControlNet中的预处理器和模型选择,需要是:instant_id_face_embedding 和 ip-adapter_instant_id_sdxl,它们用于提取参考人物的面部特征,并应用到生成图片中。其它参数默认即可。

再来看第2个ControlNet,它是用来控制生成图片中人物的面部姿势的。我们可以选择其它人物的图片,这不会影响面部特征的控制,仅影响人物的头部姿势。注意不是人物整体的姿势,当然人物的头部姿势也会对整体的姿势产生一定的影响。注意这个 ControlNet 是可选的,没有它也不影响人物的面部控制。

注意这里的三个参数:

预处理器:instant_id_face_keypoints,脸部的关键点,或者说面部姿势。

模型:control_instant_id_sdxl。

控制模式:以ControlNet为主,不选这个生成图片的线条会比较粗糙。

最后,我们只要点击"生成",静待写真图生成就好了。

使用ComfyUI工作流

我在 ComfyUI 中也测试了 InstantID 的生成效果,制作了两个工作流,一个和WebUI中的能力类似,另一个还结合了IPAdapter,可以提取参考图片的风格。

在 ComfyUI 中使用 InstantID 时,需要安装一些插件,主要就是这个:github.com/cubiq/Comfy...,不方便访问外网的同学可以到文末下载我整理的资源。

教程制作不易,AI写真的 ComfyUI 工作流目前仅发布在我的AI绘画小册,有兴趣的同学可以点击链接或下方扫码进入:xiaobot.net/post/033402...

后续优质内容、错误修正也会首先发布在这个小册,快人一步,及早加入。

资源下载

AI写真用到的大模型、LoRA模型、修脸修手模型、ControlNet插件和模型,以及生成的图片(可提取提示词等生成参数),我都已经整理到了网盘中,需要的同学,请发消息"AI写真"到公/众\号"萤火遛AI",即可领取,后续还会不定期发放一些福利。

云环境体验

我在 AutoDL 的 Stable Diffusion WebUI 镜像已经内置了本文介绍的插件和模型,不用买显卡、不用安装、不用下载,可以直接开启AI写真创作之旅,有兴趣的可以试试。

AutoDL 是我常用的一个AIGC计算平台,GPU型号十分丰富,最重要的还是质优价廉。

镜像地址:www.codewithgpu.com/i/AUTOMATIC...

在镜像地址页面,点击右下角的"AutoDL 创建实例",按照指引一步步操作即可。

或者也可以在实例创建页面选择社区镜像:yinghuoai-sd-webui-fast ,GPU型号建议选择RTX 3090、4090等,性能强劲,出图速度快。


以上就是本文的主要内容。后续还有多篇关于AI写真的教程,以及各种风格照片的生成参数分享,如有兴趣,请及时关注,以免错过重要信息。

相关推荐
武子康6 分钟前
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大数据·人工智能·学习·算法·机器学习·数据挖掘
deephub7 分钟前
Tokenformer:基于参数标记化的高效可扩展Transformer架构
人工智能·python·深度学习·架构·transformer
Q81375746012 分钟前
数据挖掘在金融交易中的应用:民锋科技的智能化布局
人工智能·科技·数据挖掘
qzhqbb16 分钟前
语言模型的采样方法
人工智能·语言模型·自然语言处理
qzhqbb19 分钟前
基于 Transformer 的语言模型
人工智能·语言模型·自然语言处理·transformer
___Dream20 分钟前
【CTFN】基于耦合翻译融合网络的多模态情感分析的层次学习
人工智能·深度学习·机器学习·transformer·人机交互
极客代码27 分钟前
【Python TensorFlow】入门到精通
开发语言·人工智能·python·深度学习·tensorflow
义小深29 分钟前
TensorFlow|咖啡豆识别
人工智能·python·tensorflow
Tianyanxiao1 小时前
如何利用探商宝精准营销,抓住行业机遇——以AI技术与大数据推动企业信息精准筛选
大数据·人工智能·科技·数据分析·深度优先·零售
撞南墙者1 小时前
OpenCV自学系列(1)——简介和GUI特征操作
人工智能·opencv·计算机视觉