通过视频生成实现基于物理的3D对象交互——PhysDreamer

随着虚拟现实(VR)和增强现实(AR)技术的飞速发展，用户对于虚拟体验的真实性提出了更高的要求。在这样的背景下，PhysDreamer应运而生，它是一项创新的技术，能够为静态3D对象赋予逼真的物理交互动态，极大地丰富了虚拟环境的互动性和沉浸感。

PhysDreamer系统旨在解决虚拟体验中逼真3D对象交互动态的合成问题。具体来说，它针对如何使静态3D对象在虚拟环境中对用户交互或外力作用时产生符合物理规律的动态响应进行研究。这一问题的核心挑战在于准确估计物体的物理材质属性，如刚度，而这些属性对于真实物体来说测量困难且数据稀缺。PhysDreamer通过利用视频生成模型学习到的动态先验知识来估计这些物理属性，并采用可微分的模拟和渲染技术，生成逼真的3D动态，从而显著提升了虚拟体验的沉浸感和交互性。

方法

PhysDreamer是一种创新的方法，它通过视频生成技术，为静态3D对象赋予逼真的物理交互特性。这一技术的核心在于模拟物体对外部力或代理操作等新颖交互的响应，进而提升虚拟体验的真实性。

3D对象的高斯表示

PhysDreamer使用3D高斯函数集合来精确表示3D场景中的静态物体。每个3D高斯代表场景中的一个点，携带位置、透明度、颜色和协方差矩阵等信息，这些点合在一起能够描述整个物体的几何和光学特性。通过这种方式，3D高斯不仅能够高效地表示物体的复杂表面，还能为后续的动态模拟和渲染提供必要的数据结构。

静态图像的渲染

在3D高斯表示的基础上，PhysDreamer首先渲染出3D场景的静态图像。这一步骤是后续动态模拟的起点，需要从特定的视角出发，确保光照、遮挡等视觉因素都被精确捕捉。渲染出的静态图像将作为视频生成模型的输入，用于生成物体运动的参考视频。

动态先验知识的提炼与视频生成

视频生成模型负责将静态图像转化为展示物体运动的视频序列。这一步骤是PhysDreamer方法的核心，它利用了大量视频数据训练得到的视频生成模型，该模型隐式地学习了物体外观与动态之间的关系。通过这个模型，PhysDreamer能够生成物体在受力或其他交互下的参考视频，这些视频序列作为后续物理模拟优化的目标。

物理模拟与材质属性的优化

得到了参考视频后，PhysDreamer采用可微分的材质点方法（MPM）来模拟物体的物理动态。MPM是一种用于模拟物体在受力后的变形和运动的计算框架，它通过粒子携带的质量和速度等物理属性来描述物体的动态行为。PhysDreamer通过优化这些物理属性，使得模拟出的动态与参考视频之间的差异最小化。优化过程包括两个阶段：初始速度场的优化和物理材质属性（如杨氏模量）的优化。

子采样策略与模拟加速

由于直接对所有3D高斯粒子进行模拟计算量巨大，PhysDreamer采用了子采样策略来加速模拟过程。通过K-Means聚类算法，从所有3D高斯粒子中选出一组代表性的"驱动粒子"进行模拟。这些驱动粒子的数量远少于全部粒子，从而显著减少了模拟的计算量。在渲染阶段，对于非驱动粒子，PhysDreamer通过插值驱动粒子的运动来推算其位置和旋转，以此重建整个物体的动态。

优化与渲染的闭环

在物理模拟和材质属性优化完成后，PhysDreamer使用可微分渲染技术来生成最终的动态视频。这一步骤将模拟得到的物理状态转换为像素空间的图像，并通过与参考视频的比较来进一步优化材质属性，形成一个闭环的优化流程。通过这种方式，PhysDreamer能够生成与真实物理交互高度一致的动态效果。

实验

数据集构建

研究者们首先构建了一个包含多个真实世界静态场景的数据集，这些场景由多种物体和相应的背景组成。每个场景都通过多视角图像捕获来创建，以确保3D模型的准确性。所选物体包括不同类型的花卉、植物、电话线和帽子等，这些都是在虚拟体验中常见的交互对象。

基线方法选择

为了评估PhysDreamer的性能，研究者们选择了两个基线方法：PhysGaussian和DreamGaussian4D。这两种方法分别代表了不同的动态3D生成技术，可以为PhysDreamer提供一个公平且具有挑战性的比较环境。

用户研究设计

研究者们采用了两种选择被迫选择（2AFC）协议来进行用户研究。在这项研究中，参与者被展示了两个同步视频，一个由PhysDreamer生成，另一个由基线方法生成。参与者的任务是选择他们认为视觉质量更高和动作真实性更强的视频。为了减少偏差，视频的左右顺序是随机的，并且每个场景都有多个样本供参与者评估。

实施细节

在实验的实施阶段，研究者们使用了一系列技术来优化PhysDreamer的性能。例如，为了提高模拟效率，他们采用了子采样策略，通过K-Means聚类来选择一组代表性的"驱动粒子"进行模拟。此外，他们还使用了不同的神经场模型来参数化物质场和初始速度场，并通过正则化技术来增强空间平滑性。

结果分析

用户研究的结果显示，PhysDreamer在动作真实性和视觉质量方面均优于基线方法。相比于PhysGaussian，80.8%的2AFC样本倾向于PhysDreamer；相比于DreamGaussian4D，70.0%的2AFC样本在视觉质量上更倾向于PhysDreamer，而在动作真实性方面，这一比例为63.5%。即使与真实捕获的视频相比，PhysDreamer在动作真实性上也获得了53.7%的偏好率，这表明其合成动态的质量已经接近真实世界的水平。

实验结果表明，PhysDreamer在合成动态的真实性方面显著优于现有的技术。用户研究的反馈也显示，PhysDreamer在动作真实性和视觉质量方面得到了用户的高度评价。这些结果证明了PhysDreamer在创建逼真的虚拟体验方面的潜力。

尽管PhysDreamer在模拟逼真物理交互方面取得了显著进展，但该方法仍存在一些局限性。例如，它需要用户手动分离出要模拟的物体，并为静止部分（如花盆）设定边界条件。此外，尽管采用了子采样策略，PhysDreamer的计算成本依然较高，且目前只适用于没有碰撞的弹性物体。未来的工作将致力于解决这些问题，进一步提高PhysDreamer的效率和适用性。

论文链接：https://arxiv.org/abs/2404.13026

项目地址：https://physdreamer.github.io/