Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;
相关推荐
Evand J6 分钟前
深度学习的应用综述
深度学习
sp_fyf_20241 小时前
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
人工智能·深度学习·神经网络·搜索引擎·语言模型·自然语言处理
大地之灯4 小时前
深度学习每周学习总结J1(ResNet-50算法实战与解析 - 鸟类识别)
人工智能·python·深度学习·学习·算法
OCR_wintone4214 小时前
翔云 OCR:发票识别与验真
人工智能·深度学习·ocr
Landy_Jay5 小时前
深度学习:CycleGAN图像风格迁移转换
人工智能·深度学习
菜就多练_08285 小时前
《深度学习》OpenCV 背景建模 原理及案例解析
人工智能·深度学习·opencv
醒了就刷牙6 小时前
67 自注意力_by《李沐:动手学深度学习v2》pytorch版
人工智能·pytorch·深度学习
sp_fyf_20246 小时前
[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择
人工智能·深度学习·神经网络·语言模型·自然语言处理
SEU-WYL6 小时前
基于深度学习的视频生成
人工智能·深度学习·音视频
bylander7 小时前
【AI学习】Mamba学习(一):总体架构
人工智能·深度学习·学习·架构