Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;
相关推荐
AI小怪兽22 分钟前
轻量、实时、高精度!MIE-YOLO:面向精准农业的多尺度杂草检测新框架 | MDPI AgriEngineering 2026
开发语言·人工智能·深度学习·yolo·无人机
一招定胜负41 分钟前
图像形态学+边缘检测及CNN关联
人工智能·深度学习·cnn
没学上了1 小时前
VLM-单头自注意力机制核心逻辑
人工智能·pytorch·深度学习
清风吹过2 小时前
Birch聚类算法
论文阅读·深度学习·神经网络·机器学习
子午2 小时前
【2026原创】动物识别系统~Python+深度学习+人工智能+模型训练+图像识别
人工智能·python·深度学习
victory04312 小时前
大模型学习阶段总结和下一阶段展望
深度学习·学习·大模型
摘星观月2 小时前
【三维重建2】TCPFormer以及NeRF相关SOTA方法
人工智能·深度学习
人工小情绪2 小时前
深度学习模型部署
人工智能·深度学习
cyyt3 小时前
深度学习周报(1.05~1.11)
人工智能·深度学习
AI人工智能+3 小时前
专利证书识别技术;通过计算机视觉与深度学习,实现了专利文档从纸质到结构化数据的智能转换
深度学习·ocr·专利证书识别