MVDiffusion | 领取你的建筑家具图纸设计师

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion



Abstract

  • 全景图生成:输入文本提示或者文本图像条件,生成8个视角关联的图像,即可拼接成一张全景图 panaroma
  • 多视角深度图生成纹理网格:通过深度图生成 3D geometry mesh with texture

Contributions

  • 根据文本描述,MVDiffusion 可生成具有高分辨率和丰富内容的整体一致的多视角图像,这对全景生成和多视角深度图像生成等实际任务大有裨益。
  • Image generation

  • 3D content generation

Methodology

Overview

Text-conditioned generation model

  • 8个视角需要8个文本提示
  • 每张图像的latents初始化为独立的高斯噪声
  • 在去噪步,每个隐层噪声喂给多分支的UNet
  • 最后通过SD的VAE Decoder解码成多视角图像

Correspondence-aware Attention

  • 目的是加强多视角特征图的连续性 consistency
  • 借鉴ControlNet,用零卷积初始化为0
  • Source和Target的匹配点问题

    • 定义了KXK的领域限制,一般K=3或者K=1效率比较高
    • 位置坐标不是整数,而是通过双线性插值得到的浮点数
    • l是第l个视角 l属于[0,N]
    • 计算采用CA标准计算 WQ, WK, and WV are the learnable weights of query, key and value matrices
    • 最关键是:将S和S*的位置差分增加到position encoding γ(),因为位移提供了局部邻域的相对位置

Image&text-conditioned generation model

  • Image&text-conditioned generation model
    • 1个条件图,生成7个目标图像即可
    • SD的inpainting model作为base model,再加上CAA
  • Multi-view depth-to-image generation
    • 从深度图中提取关键帧key-frame
    • 通过给定相机pose和帧外插生成图像

Experiments

  • 全景图
  • 深度图

Demos

  • 布局明确
  • 卡通风格 cartoon
  • 油画风格 oil painting

Conclusions

  • 引入了CAA匹配点感知注意力机制 将多视角图像生成的连续性进行了强关联(匹配点)
  • 在建筑、室内设计行业,可以通过文本和图像条件直接生成全景图和3D室内模型,大大简化图纸设计工作,而且在家具布局layout和风格style上具有较好的生成表现

References

相关推荐
橘颂TA2 分钟前
【剑斩OFFER】算法的暴力美学——数青蛙
算法·leetcode·动态规划·结构与算法
m0_639397295 分钟前
代码随想录算法训练营第三十九天|198.打家劫舍,213.打家劫舍II,337.打家劫舍III
算法
heisd_16 分钟前
KNN 算法和 K means算法和 Q-Learning 算法(简单的理解)
算法
TL滕28 分钟前
从0开始学算法——第六天(进阶排序算法)
笔记·学习·算法·排序算法
TL滕31 分钟前
从0开始学算法——第六天(进阶排序算法练习)
笔记·python·学习·算法·排序算法
課代表39 分钟前
正弦函数与椭圆的关系
数学·算法·几何·三角函数·椭圆·正弦·周长
zl_vslam41 分钟前
SLAM中的非线性优-3D图优化之相对位姿Between Factor(七)
人工智能·算法·计算机视觉·3d
CoderYanger42 分钟前
动态规划算法-简单多状态dp问题:12.打家劫舍Ⅱ
开发语言·算法·leetcode·职场和发展·动态规划·1024程序员节
一水鉴天43 分钟前
专题讨论 类型理论和范畴理论之间的关系:闭关系/闭类型/闭范畴 与 计算式(ima.copilot)
开发语言·算法·架构
元素之窗1 小时前
MATLAB 的“面子工程”:一键切换数值显示风格 —— format 命令小记
开发语言·算法·matlab