Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;
相关推荐
CoovallyAIHub27 分钟前
基于YOLO集成模型的无人机多光谱风电部件缺陷检测
深度学习·算法·计算机视觉
CoovallyAIHub28 分钟前
几十个像素的小目标,为何难倒无人机?LCW-YOLO让无人机小目标检测不再卡顿
深度学习·算法·计算机视觉
IMER SIMPLE1 小时前
人工智能-python-深度学习-经典网络模型-LeNets5
人工智能·python·深度学习
却道天凉_好个秋1 小时前
深度学习(五):过拟合、欠拟合与代价函数
人工智能·深度学习·过拟合·欠拟合·代价函数
IMER SIMPLE2 小时前
人工智能-python-深度学习-神经网络-GoogLeNet
人工智能·python·深度学习
yzx9910132 小时前
构建未来:深度学习、嵌入式与安卓开发的融合创新之路
android·人工智能·深度学习
idealmu4 小时前
知识蒸馏(KD)详解一:认识一下BERT 模型
人工智能·深度学习·bert
Cathyqiii4 小时前
生成对抗网络(GAN)
人工智能·深度学习·计算机视觉
IMER SIMPLE11 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
UQI-LIUWJ13 小时前
unsloth笔记:运行&微调 gemma
人工智能·笔记·深度学习