Imagic: Text-Based Real Image Editing with Diffusion Models

尔呦2024-10-22 19:09

针对的是text based image editing问题，可以解决non rigid edit，即可以改变图片中object的posture；
模型仅需要原图以及编辑的text，不需要mask，也是在T2I diffusion model上实现的；
首先optimize text embedding，之后使用优化后的text embedding来微调整个模型，最后将优化之后的text embedding和目标text的embedding进行插值得到一个结合原图以及编辑prompt的embedding，然后进行生成得到想要的结果；

Text embedding optimization：首先获取到编辑后text的embedding e t g t e_{tgt} etgt，之后只是训练embedding部分，冻结diffusion model主体，训练很少的步数，以使得优化之后的embedding e o p t e_{opt} eopt没有发生很大的变化，便于第三步的插值操作；
Model fine-tuning：因为第一步只训练了很少的步数，所以生成的图片不能和原图完全一致，所以进行了全模型的训练(优化之后的embedding冻结)，此时使用的是 e o p t e_{opt} eopt，但是在finetune后接的超分模型的时候使用的是 e t g t e_{tgt} etgt；
Text embedding interpolation：进行 e t g t , e o p t e_{tgt},e_{opt} etgt,eopt之间的插值： e ‾ = η ⋅ e t g t + ( 1 − η ) ⋅ e o p t \overline{e} = \eta\cdot e_{tgt} + (1 - \eta)\cdot e_{opt} e=η⋅etgt+(1−η)⋅eopt，以这个作为最后的embedding来生成，后接的超分模型还是使用 e t g t e_{tgt} etgt