神经辐射场修复的驯服潜在扩散模型
神经辐射场(NERF)是一种从多视角图像进行三维重建的表示法。尽管最近的一些工作表明,在编辑具有扩散先验的重建的 NERF 方面取得了初步成功,但他们仍然在努力在完全未覆盖的区域中合成合理的几何图形。一个主要原因是来自扩散模型的合成内容的高度多样性阻碍了辐射场收敛到清晰和确定的几何形状。此外,在实际数据上应用潜在扩散模型通常会产生与图像条件不一致的纹理漂移,这是由于自动编码错误造成的。像素距离损失的使用进一步强化了这两个问题。为了解决这些问题,我们建议通过按场景定制来缓和扩散模型的随机性,并通过掩蔽的对抗性训练来缓解纹理变化。
扩散模型是几何批评者:使用预先训练的扩散先验进行单图像 3D 编辑
我们提出了一种新的图像编辑技术,可以对单个图像进行 3D 操作,如对象旋转。现有的方法通常依赖于合成的多视图数据集来训练专门的模型,从而限制了它们在具有显著不同布局和样式的开域图像上的有效性。相比之下,我们的方法直接利用在广泛的文本-图像对上训练的强大的图像扩散模型,从而保持了它们出色的泛化能力。这一目标是通过开发一种迭代的新型视图合成和几何对齐算法来实现的。
具有形态骨骼控制的模拟冠状动脉解剖的扩散模型
虚拟干预能够在患者特定的冠状动脉解剖结构内实现基于物理的设备部署的模拟。这一框架通过在相同的解剖结构中部署反事实设备设计来探索替代方案,揭示了影响患者结果的关键设计因素。相比之下,我们用解剖反事实模拟替代场景的能力是非常有限的。在这项研究中,我们研究了潜在扩散模型(LDM)如何为虚拟介入研究定制合成冠状动脉解剖结构。我们介绍了几种适应来加强关于拓扑有效性、局部形态形状和整体骨骼结构的解剖约束。
作为数据挖掘工具的扩散模型
本文演示了如何使用生成式模型作为数据挖掘工具。我们的观点是,生成性方法学习其训练数据的准确模型,我们可以分析该模型来总结和理解这些数据。这种按合成分析的数据挖掘方法有两个关键优势。
用于 3D 点云降噪的扩散桥
在这项工作中,我们使用一种新颖的框架来解决点云去噪的任务,该框架将扩散薛定格桥调整到点集等非结构化数据。与之前根据点特征或学习的噪音分布预测逐点位移的工作不同,我们的方法学习成对点云之间的最佳传输计划。在对象数据集(例如 PU-Net 数据集)和现实世界数据集(例如 ScanNet++和 ARKitScenes)的实验中, P2P-Bridge 比现有方法有显着的改进。
单目深度估计的扩散模型:克服拥挤条件
我们提出了一种新的方法来解决在单幅图像深度估计任务中具有挑战性的、分布不均的数据所带来的复杂性,包括恶劣的天气条件和非朗伯物体。从由于没有不利因素而有助于深度预测的图像开始,我们系统地生成新的、用户定义的场景,以及一组全面的挑战和相关的深度信息。这是通过利用尖端条件扩散模型来实现的,该模型以其从文本提示合成高质量图像内容的能力而闻名,同时保持生成的图像和源图像之间的 3D 结构的一致性。
利用交叉扩散模型生成真实的人体运动
介绍了交叉人体运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新方法。我们的方法在扩散模型的训练中使用一个共享的变压器网络来集成3D 和 2D 信息,将运动噪声统一到一个单一的特征空间中。这允许将特征交叉解码为 3D 和 2D 运动表示,而不考虑其原始尺寸。