ImmerseGen：由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

概述

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。

与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同，ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理，简化中景和前景物体的放置，以及通过自然声音和动态效果整合多感官体验。特别是，通过让代理选择和放置资产，该方法解决了传统方法的瓶颈问题，如缺乏空间理解和冗余资产生成。

该方法还在搭载骁龙 XR2 的移动 VR 设备上实现了近 80 FPS 的渲染性能，在实时性能和沉浸式体验方面都达到了较高水平。实验结果表明，与之前的方法相比，该方法在美学质量、逼真度和文本一致性方面都更胜一筹。

建议的方法

ImmerseGen 的核心是一个代理驱动的生成流水线，可根据文本输入构建分层的三维世界。

首先，根据用户提示检索适当的地形模板，并通过以视点为中心的 UV 贴图对地形和天空进行高分辨率纹理处理。在此过程中，利用 ControlNet 的深度条件扩散模型生成符合地形几何形状的全景图像。

然后，基于视觉语言模型（VLM）的代理选择中景和前景物体，并根据它们各自的距离确定代理网格。中景使用广告牌类型的纹理，前景使用低多边形网格的阿尔法纹理。至于放置位置，则通过对叠加在图像上的网格进行语义分析，来确定从粗到细的适当位置。

最后，每个资产都会合成一个与背景自然融合的 RGBA 纹理。此外，还添加了风、雨和行云等视觉效果，以及鸟叫和水声等声音，为观众提供身临其境的多感官体验。

实验

为了从多个角度测试 ImmerseGen 的效果，我们与 Infinigen、DreamScene360、WonderWorld 和 LayerPano3D 等现有场景生成方法进行了对比实验。

使用的评估指标包括文本一致性（CLIP-Score）、美学质量（CLIP-Aesthetic）和基于 VLM 的视觉评分（QA-Quality）。结果证实了生成场景的美观性和一致性，其中 ImmerseGen 在 CLIP-Aesthetic 和 QA-Quality 方面得分最高。

此外，还比较了在 VR 设备上的执行性能，该方法平均达到 79 FPS，而其他方法仅达到 8-14 FPS 左右。消融研究表明，地形深度适应和资产放置网格分析对渲染质量有明显影响。用户研究还表明，大多数受试者对使用 ImmerseGen 的场景的评价优于其他方法。

这些结果证实，轻量级代理结构和代理驱动设计有助于生成实用且视觉效果出色的沉浸式虚拟现实空间。