ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

概述

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。

与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同,ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理,简化中景和前景物体的放置,以及通过自然声音和动态效果整合多感官体验。特别是,通过让代理选择和放置资产,该方法解决了传统方法的瓶颈问题,如缺乏空间理解和冗余资产生成。

该方法还在搭载骁龙 XR2 的移动 VR 设备上实现了近 80 FPS 的渲染性能,在实时性能和沉浸式体验方面都达到了较高水平。实验结果表明,与之前的方法相比,该方法在美学质量、逼真度和文本一致性方面都更胜一筹。

建议的方法

ImmerseGen 的核心是一个代理驱动的生成流水线,可根据文本输入构建分层的三维世界。

首先,根据用户提示检索适当的地形模板,并通过以视点为中心的 UV 贴图对地形和天空进行高分辨率纹理处理。在此过程中,利用 ControlNet 的深度条件扩散模型生成符合地形几何形状的全景图像。

然后,基于视觉语言模型(VLM)的代理选择中景和前景物体,并根据它们各自的距离确定代理网格。中景使用广告牌类型的纹理,前景使用低多边形网格的阿尔法纹理。至于放置位置,则通过对叠加在图像上的网格进行语义分析,来确定从粗到细的适当位置。

最后,每个资产都会合成一个与背景自然融合的 RGBA 纹理。此外,还添加了风、雨和行云等视觉效果,以及鸟叫和水声等声音,为观众提供身临其境的多感官体验。

实验

为了从多个角度测试 ImmerseGen 的效果,我们与 Infinigen、DreamScene360、WonderWorld 和 LayerPano3D 等现有场景生成方法进行了对比实验。

使用的评估指标包括文本一致性(CLIP-Score)、美学质量(CLIP-Aesthetic)和基于 VLM 的视觉评分(QA-Quality)。结果证实了生成场景的美观性和一致性,其中 ImmerseGen 在 CLIP-Aesthetic 和 QA-Quality 方面得分最高。

此外,还比较了在 VR 设备上的执行性能,该方法平均达到 79 FPS,而其他方法仅达到 8-14 FPS 左右。消融研究表明,地形深度适应和资产放置网格分析对渲染质量有明显影响。用户研究还表明,大多数受试者对使用 ImmerseGen 的场景的评价优于其他方法。

这些结果证实,轻量级代理结构和代理驱动设计有助于生成实用且视觉效果出色的沉浸式虚拟现实空间。

相关推荐
CES_Asia6 小时前
八大核心展区全景布局!CES Asia 2026北京展勾勒未来科技生态图谱
大数据·人工智能·科技·机器人
无心水6 小时前
【神经风格迁移:性能优化】21、模型轻量化实战:让VGG19在CPU上实时运行
人工智能·神经网络·机器学习·gpu·vgg·神经风格迁移·神经风格迁移:性能优化
卡奥斯开源社区官方6 小时前
技术拆解:中国首款全植入脑机接口的三大核心突破与工程化实践
人工智能
高洁016 小时前
智能体大模型时代的AI革新者
人工智能·深度学习·算法·机器学习·django
正见TrueView6 小时前
要闻集锦|抖音买单上线;豆包手机衍生灰产;OPPO整合AI部门成立超级小布;张予彤出任月之暗面总裁
人工智能
梁辰兴6 小时前
紫光国微成立中央研究院,端侧AI芯片如何重构机器人产业版图?
人工智能·ai·重构·机器人·芯片·ai芯片
JoannaJuanCV6 小时前
自动驾驶—CARLA仿真(8)tutorial demo
人工智能·机器学习·自动驾驶
Sui_Network6 小时前
Sui 主网升级至 V1.61.2
大数据·前端·人工智能·深度学习·区块链