stable diffusion的额外信息融入方式

conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。第三种就是类似controlnet这种,adapter设计。

1.sd img2img

sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的,将512x512的图转成64x64.

init_latent = sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning = img2img_image_conditioning(image, init_latent, image_mask)

1.ip-adapter

通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。

3.controlnet

stable diffusion使用和vq-gan相似的预处理方法,将512x512图像转成64x64的潜在图像,controlnet将image-based condition(就是从图像中获取线框图)转成64x64,我们使用4个4x4核和2x2strides的卷积层(后接relu,通常数分别是16,32,64,128,Guassian weights)将image-space condition转成特征图。

4.powerpaint

输入由latent+masked_image+mask concat组合,text侧还是clip编码之后送入unet进行cross-attention。

5.VideoComposer

相关推荐
李加号pluuuus15 小时前
【扩散模型】LCM LoRA:一个通用的Stable Diffusion加速模块
人工智能·stable diffusion
我是浮夸1 天前
FreeU: Free Lunch in Diffusion U-Net——【代码复现】
图像处理·深度学习·stable diffusion
不知名靓仔2 天前
Stable Diffusion:最全详细图解
stable diffusion
HealthScience2 天前
DALL-E、Stable Diffusion 等 20+ 图像生成模型综述
stable diffusion
会python的小孩3 天前
有哪些好的 Stable Diffusion 提示词(Prompt)可以参考?
人工智能·windows·tcp/ip·ai作画·stable diffusion·prompt
loong_XL3 天前
AIGC文生图lora微调训练案例;SD-Train界面训练stable Diffusion lora模型
stable diffusion·aigc
灵魂画师向阳3 天前
AI绘画Stable Diffusion 超高分辨率扩图教程:ControlNet组件-Tile妙用,增强细节保持构图完整!
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai教程·ai绘画教程
灵魂画师向阳3 天前
AI绘画Stable Diffusion画全身图总是人脸扭曲?ADetailer插件实现一键解决!
ai作画·stable diffusion·aigc·ai绘画·ai创作·ai教程·adetailer
组学之心4 天前
Diffusion模型的微调和引导
深度学习·stable diffusion
庞德公4 天前
解锁Diffusion Model: 初识Stable Diffusion、DALL-E、Imagen
人工智能·stable diffusion·imagen·dall-e