DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

  1. 问题引入
  • 输入参考图片 x 0 x_0 x0和pose序列 { p 1 , ⋯   , p N } \{p_1,\cdots,p_N\} {p1,⋯,pN},输出对应视频 { x 1 ′ , ⋯   , x N ′ } \{x_1',\cdots,x_N'\} {x1′,⋯,xN′};
  • 模型在推理的时候是帧与帧之间是独立生成的;
  • 将原本的文生图模型改造成pose&image guided video generation model
  1. methods
  • appearence控制:Split CLIP-VAE Encoder,之前的方法将图片条件和noised latents结合到一起作为输入,但是这种方法是为了spatial的align,所以本文采取了另一种办法,也就是结合使用CLIP和VAE,最初和VAE embedding相关的权重设置为0,最后得到的embedding c I = A ( c C L I P , c V A E ) c_I = A(c_{CLIP},c_{VAE}) cI=A(cCLIP,cVAE),其中 A A A代表adapter;
  • pose控制:采用五个连续pose帧 c p = { p i − 2 , p i − 1 , p i , p i + 1 , p i + 2 } c_p=\{p_{i - 2},p_{i - 1},p_i,p_{i + 1},p_{i + 2}\} cp={pi−2,pi−1,pi,pi+1,pi+2},这些和noised latents concat到一起作为输入,输入修改了以接收额外的10个通道,初始化参数为0;
  • 训练:根据上面的描述初始化模型参数之后,分为两个阶段进行训练,第一个阶段在完整数据集上面进行训练,第二个阶段在特定主题数据上进行微调;
  • Pose and Image Classifier-Free Guidance: ϵ θ ( z t , c i , c p ) = ϵ θ ( z t , ∅ , ∅ ) + s I ( ϵ θ ( z t , c I , ∅ ) − ϵ θ ( z t , ∅ , ∅ ) ) + s p ( ϵ θ ( z t , c I , c p ) − ϵ θ ( z t , c I , ∅ ) ) \epsilon_\theta(z_t,c_i,c_p) = \epsilon_\theta(z_t,\empty,\empty) + s_I(\epsilon_\theta(z_t,c_I,\empty)-\epsilon_\theta(z_t,\empty,\empty)) + s_p(\epsilon_\theta(z_t,c_I,c_p)-\epsilon_\theta(z_t,c_I,\empty)) ϵθ(zt,ci,cp)=ϵθ(zt,∅,∅)+sI(ϵθ(zt,cI,∅)−ϵθ(zt,∅,∅))+sp(ϵθ(zt,cI,cp)−ϵθ(zt,cI,∅)), s I s_I sI保证和输入图片的appearence相符, s p s_p sp保证和pose的align;
  1. 实验
  • UBC Fashion dataset
相关推荐
人工智能培训8 分钟前
样本效率与安全探索的矛盾解析及平衡路径
大数据·人工智能·深度学习·算法·机器学习·知识图谱·故障诊断
乐园游梦记14 分钟前
下载 Docker 镜像(CVAT)资源
人工智能·python·深度学习·yolo·机器学习·cvat
Jump 不二21 分钟前
Meta 提出 HyperAgents:让智能体实现自主进化
人工智能·深度学习·语言模型
jinanwuhuaguo25 分钟前
Claude Code 深度学习与场景应用完全指南:从入门到精通的全景实战
开发语言·人工智能·深度学习
若天明31 分钟前
Harness Engineering & 驾驭工程 & 智能体长时间运行机制系列 - 2
人工智能·深度学习·ai·智能体·智能体系统·harness·harness工程
AI医影跨模态组学1 小时前
如何将纵向MRI空间生境影像组学特征与肿瘤免疫微环境中B细胞浸润建立关联,并解释其与病理完全缓解(pCR)、新辅助治疗应答的机制联系
人工智能·深度学习·医学·医学影像
茴香豆的茴11 小时前
手撕 Transformer (1):Transformer 的结构拆解
人工智能·深度学习·transformer
卡梅德生物科技小能手1 小时前
深度解析免疫靶点CD28(CD28分子):从双信号机制到药物研发的技术全景
经验分享·深度学习·生活
金融小师妹1 小时前
AI利率路径重估:降息预期消退下,金价月度回撤超14%深度解析
深度学习·svn·逻辑回归·能源
liliangcsdn2 小时前
神经网络中log加替代直接乘的原因探索
人工智能·深度学习·神经网络