ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

概述

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。

与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同,ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理,简化中景和前景物体的放置,以及通过自然声音和动态效果整合多感官体验。特别是,通过让代理选择和放置资产,该方法解决了传统方法的瓶颈问题,如缺乏空间理解和冗余资产生成。

该方法还在搭载骁龙 XR2 的移动 VR 设备上实现了近 80 FPS 的渲染性能,在实时性能和沉浸式体验方面都达到了较高水平。实验结果表明,与之前的方法相比,该方法在美学质量、逼真度和文本一致性方面都更胜一筹。

建议的方法

ImmerseGen 的核心是一个代理驱动的生成流水线,可根据文本输入构建分层的三维世界。

首先,根据用户提示检索适当的地形模板,并通过以视点为中心的 UV 贴图对地形和天空进行高分辨率纹理处理。在此过程中,利用 ControlNet 的深度条件扩散模型生成符合地形几何形状的全景图像。

然后,基于视觉语言模型(VLM)的代理选择中景和前景物体,并根据它们各自的距离确定代理网格。中景使用广告牌类型的纹理,前景使用低多边形网格的阿尔法纹理。至于放置位置,则通过对叠加在图像上的网格进行语义分析,来确定从粗到细的适当位置。

最后,每个资产都会合成一个与背景自然融合的 RGBA 纹理。此外,还添加了风、雨和行云等视觉效果,以及鸟叫和水声等声音,为观众提供身临其境的多感官体验。

实验

为了从多个角度测试 ImmerseGen 的效果,我们与 Infinigen、DreamScene360、WonderWorld 和 LayerPano3D 等现有场景生成方法进行了对比实验。

使用的评估指标包括文本一致性(CLIP-Score)、美学质量(CLIP-Aesthetic)和基于 VLM 的视觉评分(QA-Quality)。结果证实了生成场景的美观性和一致性,其中 ImmerseGen 在 CLIP-Aesthetic 和 QA-Quality 方面得分最高。

此外,还比较了在 VR 设备上的执行性能,该方法平均达到 79 FPS,而其他方法仅达到 8-14 FPS 左右。消融研究表明,地形深度适应和资产放置网格分析对渲染质量有明显影响。用户研究还表明,大多数受试者对使用 ImmerseGen 的场景的评价优于其他方法。

这些结果证实,轻量级代理结构和代理驱动设计有助于生成实用且视觉效果出色的沉浸式虚拟现实空间。

相关推荐
Elastic 中国社区官方博客4 小时前
使用 Discord 和 Elastic Agent Builder A2A 构建游戏社区支持机器人
人工智能·elasticsearch·游戏·搜索引擎·ai·机器人·全文检索
2501_933329555 小时前
企业级AI舆情中台架构实践:Infoseek系统如何实现亿级数据实时监测与智能处置?
人工智能·架构
阿杰学AI5 小时前
AI核心知识70——大语言模型之Context Engineering(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·数据处理·上下文工程
赛博鲁迅5 小时前
物理AI元年:AI走出屏幕进入现实,88API为机器人装上“最强大脑“
人工智能·机器人
管牛牛5 小时前
图像的卷积操作
人工智能·深度学习·计算机视觉
云卓SKYDROID5 小时前
无人机航线辅助模块技术解析
人工智能·无人机·高科技·云卓科技
琅琊榜首20206 小时前
AI生成脑洞付费短篇小说:从灵感触发到内容落地
大数据·人工智能
imbackneverdie6 小时前
近年来,我一直在用的科研工具
人工智能·自然语言处理·aigc·论文·ai写作·学术·ai工具
roman_日积跬步-终至千里7 小时前
【计算机视觉-作业1】从图像到向量:kNN数据预处理完整流程
人工智能·计算机视觉