【comfyui】40个工作流一次让你彻底掌握controlNet的使用场景(2)-法线和深度处理器

我计划使用40个工作流分成3-4篇文章来介绍Stable Diffusion的controlNet各种预处理器以及它的使用效果。

并且做成像字典一样的记录,后面需要使用时,也可以随时查阅,当然这些工作流我也会分享,需要的朋友可以在文章底部加我微信获取。

这是我们的第二篇,本篇主要介绍stable diffusion controlNet 法线和深度预处理器。

第一篇: 【comfyui】40个工作流一次让你彻底掌握SD controlNet的使用场景(1)-线性处理器

法线处理器

MIDAS 法线信息计算主要用于从多视角图像中恢复3D场景或3D物体的几何结构,包括表面的法线向量。它的主要目的是通过恢复场景或物体的三维几何结构,来提高3D重建、虚拟现实、增强现实等应用的真实感和准确性。而BAE法线信息计算则是用于从单幅图像中估计3D物体的法线向量。它的主要目的是通过估计3D物体的表面细节和纹理,来提高绘制3D物体的速度和准确性。

另一种可以体现景深关系的图像叫 NormalMap 法线贴图

我们在中学时期有学过法线,它是垂直与平面的一条向量,因此储存了该平面方向和角度等信息。我们通过在物体凹凸表面的每个点上均绘制法线,再将其储存到 RGB 的颜色通道中,其中 R 红色、G 绿色、B 蓝色分别对应了三维场景中 XYX 空间坐标系,这样就能实现通过颜色来反映物体表面的光影效果,而由此得到的纹理图我们将其称为法线贴图。由于法线贴图可以实现在不改变物体真实结构的基础上也能反映光影分布的效果,被广泛应用在 CG 动画渲染和游戏制作等领域。

ControlNet 的 NormalMap 模型就是根据画面中的光影信息,从而模拟出物体表面的凹凸细节,实现准确还原画面内容布局,因此 NormalMap 多用于体现物体表面更加真实的光影细节。

NormalMap 有 Bae 和 Midas2 种预处理器,MiDaS 是早期 v1.0 版本使用的预处理器,官方已表示不再进行维护,平时大家使用默认新的 Bae 预处理器即可

当我们选择 MiDaS 预处理器时,下方会多出 Background Threshold(bg_threshold) 背景阈值的参数项,它的数值范围在 0~1 之间。通过设置背景阈值参数可以过滤掉画面中距离镜头较远的元素,让画面着重体现关键主题。下图中可以看到,随着背景阈值数值增大,前景人物的细节体现保持不变,但背景内容逐渐被过滤掉。

对比 Bae 和 Midas 预处理器的出图效果,也能看出 Bae 在光影反馈上明显更胜一筹。

法线BAE

法线BAE

法线DSINE

它可以从原图中提取 3D 物体的法线向量,绘制的新图与原图的光影效果完全相同。使用这个模型,图像的构图基本可以还原,背景主体可以通过 prompt 来控制,更多细节可以通过调整参数来把控。

法线DSINE

深度处理器

深度图也被称为距离影像,可以将从图像采集器到场景中各点的距离(深度)作为像素值的图像,它可以直接体现画面中物体的三维深度关系。学习过三维动画知识的朋友应该听说过深度图,该类图像中只有黑白两种颜色,距离镜头越近则颜色越浅(白色),距离镜头越近则颜色越深(黑色)。

Depth 模型可以提取图像中元素的前后景关系生成深度图,再将其复用到绘制图像中,因此当画面中物体前后关系不够清晰时,可以通过 Depth 模型来辅助控制。下图中可以看到通过深度图很好的还原了建筑中的空间景深关系。

Depth 的预处理器有四种:LeReS、LeReS++、MiDaS、ZoE,下图中我们可以看到这四种预处理器的检测效果。对比来看,LeReS 和 LeReS++的深度图细节提取的层次比较丰富,其中 LeReS++会更胜一筹(leres和leres++在同一个节点,由disable和enable控制开启关闭)

而 MiDaS 和 ZoE 更适合处理复杂场景,其中 ZoE 的参数量是最大的,所以处理速度比较慢,实际效果上更倾向于强化前后景深对比。

Depth_anything 是一个新的深度估计模型,相比其他深度模型,它处理的预览图更清晰锐利,并且在处理运动画面时有更好的表现,适合用于 Animatediff 等视频插件。

深度MiDaS

它使用 Midas 深度估计来控制 Stable Diffusion(SD)模型。该模型可以从原图中提取 3D 物体的深度信息,从而绘制出与原图光影效果相同的新图。

深度MiDaS

深度LeRes

深度LeRes

深度Zoe

深度 LeRes 倾向于渲染背景,能够提供更多的细节,但前景和背景的过渡可能较为生硬。它是细节程度较高的深度图处理方法,但所需的处理时间也相对较长。

深度 Zoe 则在前景和背景的过渡上表现得更加柔和,能够呈现出明显的纵深关系。它提取的细节介于深度 LeRes 和深度 Midas 之间,但处理时间也比深度 LeRes 更长。

深度Depth Anything

可以从单张图像中预测场景的深度信息。深度信息是指场景中物体的距离信息,它可以帮助计算机视觉系统更好地理解场景中的物体和结构。

深度Depth Anything

深度Zoe Depth Anything

深度Zoe是一种深度图形处理模型,常用于ControlNet中,它可以根据输入的图像生成深度图。

深度Zoe Depth Anything

深度手部修复MeshGraphormer

深度手部修复 MeshGraphormer 常用于修复手部问题,可使手部更好地融入背景,也可用于提取人物、汽车、动物等线稿进行重绘。

总结

1.两种法线处理器 2.六种深度处理器介绍

法线信息计算主要用于从多视角图像中恢复3D场景或3D物体的几何结构,包括表面的法线向量。

而深度处理器,更多是对光影信息的处理。

法线处理器和深度处理器就是这几种了,建议搭建都是亲自搭建下试试效果,需要 工作流 的朋友可以私信我获取。

另外:我也只是一个AI绘画爱好者,不是专业的AI开发人员,所以收集的资料和我自己的一些理解可能不是最准确的,有什么问题,也欢迎大家留言或者加我为好友一起讨论。

做一次预告,下一篇将会介绍controlNet pose姿势处理器。

好了,今天的分享就到此结束啦!

如果大家对此感兴趣的话,不妨去尝试一下哦。最后,我要衷心感谢每一位阅读我文章的朋友。

如果你觉得文章还不错,麻烦随手点个赞、转发一下吧,当然也欢迎你给我个星标⭐,这样你就能第一时间收到我的推送啦, 你的支持是我持续创作的动力 。

相关推荐
乔代码嘚3 小时前
AI2.0时代,普通小白如何通过AI月入30万
人工智能·stable diffusion·aigc
XiaoLiuLB3 小时前
ChatGPT Canvas:交互式对话编辑器
人工智能·自然语言处理·chatgpt·编辑器·aigc
学习前端的小z1 天前
【AIGC】ChatGPT提示词解析:如何打造个人IP、CSDN爆款技术文案与高效教案设计
人工智能·chatgpt·aigc
wgggfiy2 天前
chatgpt学术科研prompt模板有哪些?chatgpt的学术prompt有哪些?学术gpt,学术科研
论文阅读·人工智能·gpt·chatgpt·prompt·aigc
⊙月2 天前
CMU 10423 Generative AI:lec15(Scaling Laws 大规模语言模型的扩展法则)
人工智能·aigc
贪玩懒悦2 天前
用langchain+streamlit应用RAG实现个人知识库助手搭建
人工智能·ai·语言模型·langchain·aigc
CM莫问3 天前
大语言模型入门(一)——大语言模型智能助手
人工智能·算法·语言模型·自然语言处理·aigc
⊙月3 天前
CMU 10423 Generative AI:lec14(Vision Language Model:CLIP、VQ-VAE)
人工智能·aigc
⊙月3 天前
CMU 10423 Generative AI:lec16(Mixture of Experts 混合专家模型)
人工智能·aigc
杰说新技术4 天前
在实时语音交互上超过GPT-4o,端到端语音模型Mini-Omni部署
人工智能·aigc