DragDiffusion | 精准图像编辑

leejet2023-09-21 17:21

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

paper arxiv.org/pdf/2306.14...
code yujun-shi.github.io/projects/dr...

Abstract

GAN泛化性能上界由其模型大小决定
将基于点的图像编辑框架扩展到扩散模型
目前，扩散模型图像编辑是通过文本嵌入实现，并非是精准的局部空间编辑
虽然扩散模型是迭代式，但本模型通过只优化某一步的隐式变量即可实现高质量高效率的图像编辑

Contributions

迭代的基于点的图像编辑框架应用到扩散模型中，从而实现精准空间编辑

DragGAN
Denoising diffusion probabilistic models (DDPM)
Denoising diffusion implicit models (DDIM)
DDIM inversion

Methodology

Overview

分为2步

（A）通过LoRA微调SD模型，数据集为用户输入的图像。
- 目的是在编辑过程中（其实也是生成过程）更好的保留输入图像中物体和风格特征
（B）用户输入的图像作为Z0，通过DDIM Inversion得到第t步加噪声的隐变量Zt（注意，是小t，不是大T，也就是不是最终的标准高斯噪声，而是加噪的中间结果），在第t步通过Motion Supervision and Point Tracking------运动监督和轨迹跟踪间接实现对图像点的拖拽得到Zt_hat, 在通过DDIM Denoising去噪生成编辑后的图像（motion supervision 和 point tracking 是不断交替运行若干步的(论文中默认40步)）
- 在编辑过程中，需要增加正则项确保非编辑区域（编辑mask区域外）不变

Motion Supervision

the k-th iteration of motion supervision

公式第一部分是对第t步的latent进行k次迭代实现点从起始位置运动到目标位置，注意是k次迭代，不是一步到位，采用的是梯度下降法（方向、步长），一次迭代只用一次梯度下降，不断迭代更新。
- sg表示停止梯度stop gradient，即不会反向传播，因为最小化loss时候，采用bp，希望这一项不更新梯度
- di是当前控制点朝着目标点的归一化方向
- Fq+di是双线性插值得到的，不一定是整数
- Ω(hk i , r1) = {(x, y) : |x - xk i | ≤ r1, |y - yik| ≤ r1} 是q的范围，矩形区域
公式第二部分是对unmasked区域保持不变

Point Tracking

因为运动监督更新了Ztk, 控制点的位置发生了变化，需要更新
用Unet特征找控制点的匹配点，Unet倒数第二层的输出特征，即Unet.Decoder倒数第二个Stage的输出特征
采用最近邻策略更新控制点

Experiments

Conclusions

鸡肋，水文
DragDiffusion和DragGAN一样，都是通过对特征的点跟踪和运动特征监督进行
注意，motion supervision 和 point tracking 是不断交替运行若干步的

References

github.com/XingangPan/...

上一篇：如何通过百度SEO优化提升网站排名（掌握基础概念，实现有效优化）

下一篇：应用程序处理：TCP模块的处理

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南