Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;
相关推荐
لا معنى له3 分钟前
目标分割介绍及最新模型----学习笔记
人工智能·笔记·深度学习·学习·机器学习·计算机视觉
万里鹏程转瞬至1 小时前
论文简读:Qwen2.5-VL Technical Report
论文阅读·深度学习·多模态
Coding茶水间1 小时前
基于深度学习的水下海洋生物检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
万俟淋曦2 小时前
【论文速递】2025年第40周(Sep-28-Oct-04)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·大模型·论文·具身智能
cyyt2 小时前
深度学习周报(12.15~12.21)
人工智能·深度学习·最优传输
Hcoco_me3 小时前
Seq2Seq:Encoder-Decoder架构详解
人工智能·rnn·深度学习
江上鹤.1483 小时前
Day44 训练和测试的规范写法
人工智能·深度学习·机器学习
万俟淋曦3 小时前
【论文速递】2025年第38周(Sep-14-20)(Robotics/Embodied AI/LLM)
人工智能·深度学习·机器学习·机器人·大模型·论文·具身智能
视觉&物联智能4 小时前
【杂谈】-人工智能:助力护士回归人文关怀,而非取而代之
人工智能·深度学习·ai·aigc·agi
万里鹏程转瞬至5 小时前
论文简读:Qwen3-VL Technical Report | Qwen3VL技术报告
论文阅读·深度学习·多模态