DragDiffusion | 精准图像编辑

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing



Abstract

  • GAN泛化性能上界由其模型大小决定
  • 将基于点的图像编辑框架扩展到扩散模型
  • 目前,扩散模型图像编辑是通过文本嵌入实现,并非是精准的局部空间编辑
  • 虽然扩散模型是迭代式,但本模型通过只优化某一步的隐式变量即可实现高质量高效率的图像编辑

Contributions

  • 迭代的基于点的图像编辑框架应用到扩散模型中,从而实现精准空间编辑
  • DragGAN
  • Denoising diffusion probabilistic models (DDPM)
  • Denoising diffusion implicit models (DDIM)
  • DDIM inversion

Methodology

Overview

分为2步

  • (A)通过LoRA微调SD模型,数据集为用户输入的图像。
    • 目的是在编辑过程中(其实也是生成过程)更好的保留输入图像中物体和风格特征
  • (B)用户输入的图像作为Z0,通过DDIM Inversion得到第t步加噪声的隐变量Zt(注意,是小t,不是大T,也就是不是最终的标准高斯噪声,而是加噪的中间结果),在第t步通过Motion Supervision and Point Tracking------运动监督和轨迹跟踪 间接实现对图像点的拖拽得到Zt_hat, 在通过DDIM Denoising去噪生成编辑后的图像 (motion supervision 和 point tracking 是不断交替运行若干步的(论文中默认40步))
    • 在编辑过程中,需要增加正则项确保非编辑区域(编辑mask区域外)不变

Motion Supervision

  • the k-th iteration of motion supervision
  • 公式第一部分是对第t步的latent进行k次迭代实现点从起始位置运动到目标位置,注意是k次迭代,不是一步到位,采用的是梯度下降法(方向、步长),一次迭代只用一次梯度下降,不断迭代更新。
    • sg表示停止梯度stop gradient,即不会反向传播,因为最小化loss时候,采用bp,希望这一项不更新梯度
    • di是当前控制点朝着目标点的归一化方向
    • Fq+di是双线性插值得到的,不一定是整数
    • Ω(hk i , r1) = {(x, y) : |x - xk i | ≤ r1, |y - yik| ≤ r1} 是q的范围,矩形区域
  • 公式第二部分是对unmasked区域保持不变

Point Tracking

  • 因为运动监督更新了Ztk, 控制点的位置发生了变化,需要更新
  • 用Unet特征找控制点的匹配点,Unet倒数第二层的输出特征,即Unet.Decoder倒数第二个Stage的输出特征
  • 采用最近邻策略更新控制点

Experiments

Conclusions

  • 鸡肋,水文
  • DragDiffusion和DragGAN一样,都是通过对特征的点跟踪和运动特征监督进行
  • 注意,motion supervision 和 point tracking 是不断交替运行若干步的

References

相关推荐
scx201310045 小时前
20251214 字典树总结
算法·字典树
leiming65 小时前
MobileNetV4 (MNv4)
开发语言·算法
YGGP5 小时前
【Golang】LeetCode 136. 只出现一次的数字
算法·leetcode
YGGP5 小时前
【Golang】LeetCode 169. 多数元素
算法·leetcode
顾安r5 小时前
11.20 脚本网页 数学分支
算法·数学建模·html
少许极端5 小时前
算法奇妙屋(二十)-回文子串/子序列问题(动态规划)
java·算法·动态规划·图解·回文串·回文序列
天赐学c语言5 小时前
12.20 - 反转链表II && 传值和传地址的区别
数据结构·c++·算法·链表·leecode
如意鼠5 小时前
大模型教我成为大模型算法工程师之day20: 预训练语言模型 (Pre-trained Language Models)
人工智能·算法·语言模型
_OP_CHEN5 小时前
【算法基础篇】(三十六)图论基础之拓扑排序:从原理到实战,搞定 DAG 图的 “先后次序” 难题
c++·算法·蓝桥杯·图论·拓扑排序·算法竞赛·acm/icpc
良木生香6 小时前
【诗句结构-初阶】详解栈和队列(2)---队列
c语言·数据结构·算法·蓝桥杯