Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;
相关推荐
数智工坊21 分钟前
【SAM-DETR论文阅读】:基于语义对齐匹配的DETR极速收敛检测框架
网络·论文阅读·人工智能·深度学习·transformer
童园管理札记29 分钟前
【续】数字时代:学前教育的新改革
经验分享·深度学习·职场和发展·微信公众平台
AI医影跨模态组学2 小时前
如何将纵向CT影像组学特征与局部晚期胃癌化疗时空异质性及耐药演化建立关联,并进一步解释其与化疗响应、淋巴结转移及生存预后的机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
硅谷秋水4 小时前
ClawVM:有状态工具LLM智体的Harness管理型虚拟内存
人工智能·深度学习·语言模型
春风有信5 小时前
【DM】DDPM与DDIM的数学原理
人工智能·深度学习·机器学习
T.i.s5 小时前
总变差正则化(TV Loss)的思考
人工智能·pytorch·深度学习
zh路西法6 小时前
【RDKX5多摄像头模型推理】USB带宽限制与ROS2话题零拷贝转发
linux·c++·python·深度学习
AI医影跨模态组学7 小时前
如何将多模态CT深度学习特征与肿瘤微环境中的免疫相关生物学过程建立关联,并进一步解释其与非小细胞肺癌新辅助免疫化疗后的pCR机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
2zcode7 小时前
基于深度学习的香梨产量预测系统设计与实现
人工智能·深度学习
机器学习之心7 小时前
RNN隐状态机制解析
深度学习