stable diffusion的额外信息融入方式

conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。第三种就是类似controlnet这种,adapter设计。

1.sd img2img

sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的,将512x512的图转成64x64.

复制代码
init_latent = sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning = img2img_image_conditioning(image, init_latent, image_mask)

1.ip-adapter

通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。

3.controlnet

stable diffusion使用和vq-gan相似的预处理方法,将512x512图像转成64x64的潜在图像,controlnet将image-based condition(就是从图像中获取线框图)转成64x64,我们使用4个4x4核和2x2strides的卷积层(后接relu,通常数分别是16,32,64,128,Guassian weights)将image-space condition转成特征图。

4.powerpaint

输入由latent+masked_image+mask concat组合,text侧还是clip编码之后送入unet进行cross-attention。

5.VideoComposer

相关推荐
程序员大辉20 小时前
Z-Image迷你整合包:只有10G大小,5G小显存也能跑的Stable Diffusion文生图工具
stable diffusion·文生图·sd·z-image
嗝o゚3 天前
昇腾CANN cann-recipes-infer 仓:Stable Diffusion 推理加速方案
人工智能·stable diffusion·cann
菜鸟是大神3 天前
04-高效编写CLAUDE.md
数据库·chatgpt·ai作画·stable diffusion·文心一言·dall·e 2
Rocky Ding*6 天前
昔日AI绘画框架王者Stable Diffusion WebUI,已死
人工智能·深度学习·机器学习·chatgpt·ai作画·stable diffusion·aigc
艾古力斯6 天前
比迪丽AI绘画模型Python爬虫实战:自动化采集艺术素材
stable diffusion·ai绘画·python爬虫
风落无尘7 天前
Stable Diffusion WebUI & ComfyUI 完整安装教程:官方部署+一键整合包+Docker容器化(2026最新)
docker·容器·stable diffusion
code_pgf8 天前
Stable-Diffusion模型中常见 Stable Diffusion Sampling 方法
人工智能·stable diffusion
水上冰石9 天前
v1-5-pruned-emaonly.safetensors 搭配mm_sd_v15_v2.ckpt 生成视频,具体操作步骤
stable diffusion·音视频·文生视频
日光明媚10 天前
TensorRT-LLM 中对 wan 加速流程与方法
人工智能·python·计算机视觉·stable diffusion·aigc
风落无尘10 天前
AIGC(Stable Diffusion 生态)常用知识与参数速查手册
人工智能·stable diffusion·aigc