Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

尔呦2024-07-07 5:08

CVPR2024 SHI Labs
https://arxiv.org/pdf/2305.16223
https://github.com/SHI-Labs/Prompt-Free-Diffusion

问题引入

在SD模型的基础之上，去掉text prompt，使用reference image作为生成图片语义的指导，optional structure image作为生成图片structure的指导来进行生成；
使用SeeCoder来提取参考图片的embedding作为生成条件，且SeeCoder是可以重复使用的，可以直接集成到另外的T2I模型中；

methods

使用SeeCoder代替CLIP text embedding；
SeeCoder包含三个部分，Backbone Encoder, Decoder, and Query Transformer，其中Backbone Encoder使用SWIN-L提取多尺度特征，该部分参数是冻结的；之后decoder使用卷积来使得多尺度特征通道数相同，然后进行flatten+concat，得到的结果通过self attn + ffn；之后Query Transformer输出视觉embedding；

上一篇：PPT文件中，母版视图与修改权限的区别

下一篇：oracle查询出表中某几个字段值不唯一的数据

热门推荐

01GPU 进阶笔记（二）：华为昇腾 910B GPU 02Word粘贴时出现“运行时错误53,文件未找到：MathPage.WLL“的解决方案 03Coze扣子平台完整体验和实践（附国内和国际版对比）04MIUI显示/隐藏5G开关的方法，信号弱时开启手机Wifi通话方法 05扣子空间的使用教程与大模型技术思考 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07集群聊天服务器---MySQL数据库的建立 08Coze实战第13讲：飞书多维表格读取+豆包生图模型，轻松批量生成短剧封面 09DeepSeek各版本说明与优缺点分析 10KGG转MP3工具|非KGM文件|解密音频