ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

概述

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。

与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同,ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理,简化中景和前景物体的放置,以及通过自然声音和动态效果整合多感官体验。特别是,通过让代理选择和放置资产,该方法解决了传统方法的瓶颈问题,如缺乏空间理解和冗余资产生成。

该方法还在搭载骁龙 XR2 的移动 VR 设备上实现了近 80 FPS 的渲染性能,在实时性能和沉浸式体验方面都达到了较高水平。实验结果表明,与之前的方法相比,该方法在美学质量、逼真度和文本一致性方面都更胜一筹。

建议的方法

ImmerseGen 的核心是一个代理驱动的生成流水线,可根据文本输入构建分层的三维世界。

首先,根据用户提示检索适当的地形模板,并通过以视点为中心的 UV 贴图对地形和天空进行高分辨率纹理处理。在此过程中,利用 ControlNet 的深度条件扩散模型生成符合地形几何形状的全景图像。

然后,基于视觉语言模型(VLM)的代理选择中景和前景物体,并根据它们各自的距离确定代理网格。中景使用广告牌类型的纹理,前景使用低多边形网格的阿尔法纹理。至于放置位置,则通过对叠加在图像上的网格进行语义分析,来确定从粗到细的适当位置。

最后,每个资产都会合成一个与背景自然融合的 RGBA 纹理。此外,还添加了风、雨和行云等视觉效果,以及鸟叫和水声等声音,为观众提供身临其境的多感官体验。

实验

为了从多个角度测试 ImmerseGen 的效果,我们与 Infinigen、DreamScene360、WonderWorld 和 LayerPano3D 等现有场景生成方法进行了对比实验。

使用的评估指标包括文本一致性(CLIP-Score)、美学质量(CLIP-Aesthetic)和基于 VLM 的视觉评分(QA-Quality)。结果证实了生成场景的美观性和一致性,其中 ImmerseGen 在 CLIP-Aesthetic 和 QA-Quality 方面得分最高。

此外,还比较了在 VR 设备上的执行性能,该方法平均达到 79 FPS,而其他方法仅达到 8-14 FPS 左右。消融研究表明,地形深度适应和资产放置网格分析对渲染质量有明显影响。用户研究还表明,大多数受试者对使用 ImmerseGen 的场景的评价优于其他方法。

这些结果证实,轻量级代理结构和代理驱动设计有助于生成实用且视觉效果出色的沉浸式虚拟现实空间。

相关推荐
liliangcsdn8 分钟前
LLM复杂数值的提取计算场景示例
人工智能·python
小和尚同志14 分钟前
OpenCodeUI 让你随时随地 AI Coding
人工智能·aigc·ai编程
AI视觉网奇17 分钟前
2d 数字人解决方案-待机动作
人工智能·计算机视觉
人工智能AI酱39 分钟前
【AI深究】逻辑回归(Logistic Regression)全网最详细全流程详解与案例(附大量Python代码演示)| 数学原理、案例流程、代码演示及结果解读 | 决策边界、正则化、优缺点及工程建议
人工智能·python·算法·机器学习·ai·逻辑回归·正则化
爱喝可乐的老王44 分钟前
机器学习监督学习模型--逻辑回归
人工智能·机器学习·逻辑回归
Ao00000044 分钟前
机器学习——逻辑回归
人工智能·机器学习·逻辑回归
智算菩萨1 小时前
【How Far Are We From AGI】3 AGI的边界扩张——数字、物理与智能三重接口的技术实现与伦理困境
论文阅读·人工智能·深度学习·ai·agi
智算菩萨1 小时前
【How Far Are We From AGI】2 大模型的“灵魂“缺口:当感知、记忆与自我意识的迷雾尚未散去
人工智能·ai·agi·感知
deepxuan1 小时前
Day1--python三大库-Pandas
人工智能·python·pandas
阿泽·黑核1 小时前
Easy Vibe Coding 学习心得(二):从产品原型到 AI 应用——我的第一个完整项目
人工智能·ai编程·vibe coding