stable diffusion的额外信息融入方式

conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。第三种就是类似controlnet这种,adapter设计。

1.sd img2img

sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的,将512x512的图转成64x64.

复制代码
init_latent = sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning = img2img_image_conditioning(image, init_latent, image_mask)

1.ip-adapter

通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。

3.controlnet

stable diffusion使用和vq-gan相似的预处理方法,将512x512图像转成64x64的潜在图像,controlnet将image-based condition(就是从图像中获取线框图)转成64x64,我们使用4个4x4核和2x2strides的卷积层(后接relu,通常数分别是16,32,64,128,Guassian weights)将image-space condition转成特征图。

4.powerpaint

输入由latent+masked_image+mask concat组合,text侧还是clip编码之后送入unet进行cross-attention。

5.VideoComposer

相关推荐
Yeliang Wu16 小时前
Stable Diffusion WebUI 从安装到实战:原理、部署与问题全解
stable diffusion
Yeliang Wu18 小时前
ComfyUI 全流程指南:安装、配置、插件与模型选型
stable diffusion·文生图·图生图·comfyui
LCG米1 天前
[OpenVINO实战] 在边缘设备上运行Stable Diffusion,实现离线文生图
人工智能·stable diffusion·openvino
水上冰石2 天前
rtx5060部署stable-diffusion1.10.1版本注意事项
stable diffusion
水上冰石2 天前
stable-diffusion-webui的v1.10.1版本汉化
stable diffusion
梯度下降不了班2 天前
【mmodel/xDit】Cross-Attention 深度解析:文生图/文生视频的核心桥梁
人工智能·深度学习·ai作画·stable diffusion·音视频·transformer
余蓝3 天前
快速部署 stable-diffusion-xl-base-1.0(SDXL)
ai作画·stable diffusion·dall·e 2
梯度下降不了班3 天前
【mmodel/xDiT】多模态^_^从入门到放弃的学习路径
人工智能·学习·stable diffusion
love530love4 天前
【ComfyUI/SD环境管理指南(二)】:如何避免插件安装导致的环境崩溃与“外科手术式”修复
人工智能·windows·python·stable diffusion·github·aigc·comfyui
小毅&Nora4 天前
【人工智能】【深度学习】④ Stable Diffusion核心算法解析:从DDPM到文本生成图像的飞跃
人工智能·深度学习·stable diffusion