DragDiffusion | 精准图像编辑

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing



Abstract

  • GAN泛化性能上界由其模型大小决定
  • 将基于点的图像编辑框架扩展到扩散模型
  • 目前,扩散模型图像编辑是通过文本嵌入实现,并非是精准的局部空间编辑
  • 虽然扩散模型是迭代式,但本模型通过只优化某一步的隐式变量即可实现高质量高效率的图像编辑

Contributions

  • 迭代的基于点的图像编辑框架应用到扩散模型中,从而实现精准空间编辑
  • DragGAN
  • Denoising diffusion probabilistic models (DDPM)
  • Denoising diffusion implicit models (DDIM)
  • DDIM inversion

Methodology

Overview

分为2步

  • (A)通过LoRA微调SD模型,数据集为用户输入的图像。
    • 目的是在编辑过程中(其实也是生成过程)更好的保留输入图像中物体和风格特征
  • (B)用户输入的图像作为Z0,通过DDIM Inversion得到第t步加噪声的隐变量Zt(注意,是小t,不是大T,也就是不是最终的标准高斯噪声,而是加噪的中间结果),在第t步通过Motion Supervision and Point Tracking------运动监督和轨迹跟踪 间接实现对图像点的拖拽得到Zt_hat, 在通过DDIM Denoising去噪生成编辑后的图像 (motion supervision 和 point tracking 是不断交替运行若干步的(论文中默认40步))
    • 在编辑过程中,需要增加正则项确保非编辑区域(编辑mask区域外)不变

Motion Supervision

  • the k-th iteration of motion supervision
  • 公式第一部分是对第t步的latent进行k次迭代实现点从起始位置运动到目标位置,注意是k次迭代,不是一步到位,采用的是梯度下降法(方向、步长),一次迭代只用一次梯度下降,不断迭代更新。
    • sg表示停止梯度stop gradient,即不会反向传播,因为最小化loss时候,采用bp,希望这一项不更新梯度
    • di是当前控制点朝着目标点的归一化方向
    • Fq+di是双线性插值得到的,不一定是整数
    • Ω(hk i , r1) = {(x, y) : |x - xk i | ≤ r1, |y - yik| ≤ r1} 是q的范围,矩形区域
  • 公式第二部分是对unmasked区域保持不变

Point Tracking

  • 因为运动监督更新了Ztk, 控制点的位置发生了变化,需要更新
  • 用Unet特征找控制点的匹配点,Unet倒数第二层的输出特征,即Unet.Decoder倒数第二个Stage的输出特征
  • 采用最近邻策略更新控制点

Experiments

Conclusions

  • 鸡肋,水文
  • DragDiffusion和DragGAN一样,都是通过对特征的点跟踪和运动特征监督进行
  • 注意,motion supervision 和 point tracking 是不断交替运行若干步的

References

相关推荐
未来之窗软件服务几秒前
幽冥大陆(三十九)php二维数组去重——东方仙盟筑基期
android·开发语言·算法·php·仙盟创梦ide·东方仙盟·东方仙盟sdk
DFT计算杂谈4 分钟前
Abinit-10.4.7安装教程
linux·数据库·python·算法·matlab
sali-tec12 分钟前
C# 基于halcon的视觉工作流-章65 点云匹配-基于形状
开发语言·人工智能·算法·计算机视觉·c#
AI科技星24 分钟前
自然本源——空间元、氢尺、探针与场方程
数据结构·人工智能·算法·机器学习·计算机视觉
小O的算法实验室33 分钟前
2025年CMAME SCI2区,基于优先级驱动搜索、具备动态候选解管理策略的粒子群算法,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进
吃着火锅x唱着歌36 分钟前
LeetCode 2874.有序三元组中的最大值II
数据结构·算法·leetcode
xxxxxmy1 小时前
相向双指针—三数之和
python·算法·相向双指针
Blossom.1181 小时前
基于知识图谱+LLM的工业设备故障诊断:从SQL日志到可解释推理的实战闭环
人工智能·python·sql·深度学习·算法·transformer·知识图谱
conkl1 小时前
梅森旋转算法深度解析:构建更健壮的前端请求体系
前端·算法·状态模式
老黄编程1 小时前
点云NARF关键点原理、算法描述及参数详细描述
算法·点云·narf特征点