ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

概述

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。

与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同,ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理,简化中景和前景物体的放置,以及通过自然声音和动态效果整合多感官体验。特别是,通过让代理选择和放置资产,该方法解决了传统方法的瓶颈问题,如缺乏空间理解和冗余资产生成。

该方法还在搭载骁龙 XR2 的移动 VR 设备上实现了近 80 FPS 的渲染性能,在实时性能和沉浸式体验方面都达到了较高水平。实验结果表明,与之前的方法相比,该方法在美学质量、逼真度和文本一致性方面都更胜一筹。

建议的方法

ImmerseGen 的核心是一个代理驱动的生成流水线,可根据文本输入构建分层的三维世界。

首先,根据用户提示检索适当的地形模板,并通过以视点为中心的 UV 贴图对地形和天空进行高分辨率纹理处理。在此过程中,利用 ControlNet 的深度条件扩散模型生成符合地形几何形状的全景图像。

然后,基于视觉语言模型(VLM)的代理选择中景和前景物体,并根据它们各自的距离确定代理网格。中景使用广告牌类型的纹理,前景使用低多边形网格的阿尔法纹理。至于放置位置,则通过对叠加在图像上的网格进行语义分析,来确定从粗到细的适当位置。

最后,每个资产都会合成一个与背景自然融合的 RGBA 纹理。此外,还添加了风、雨和行云等视觉效果,以及鸟叫和水声等声音,为观众提供身临其境的多感官体验。

实验

为了从多个角度测试 ImmerseGen 的效果,我们与 Infinigen、DreamScene360、WonderWorld 和 LayerPano3D 等现有场景生成方法进行了对比实验。

使用的评估指标包括文本一致性(CLIP-Score)、美学质量(CLIP-Aesthetic)和基于 VLM 的视觉评分(QA-Quality)。结果证实了生成场景的美观性和一致性,其中 ImmerseGen 在 CLIP-Aesthetic 和 QA-Quality 方面得分最高。

此外,还比较了在 VR 设备上的执行性能,该方法平均达到 79 FPS,而其他方法仅达到 8-14 FPS 左右。消融研究表明,地形深度适应和资产放置网格分析对渲染质量有明显影响。用户研究还表明,大多数受试者对使用 ImmerseGen 的场景的评价优于其他方法。

这些结果证实,轻量级代理结构和代理驱动设计有助于生成实用且视觉效果出色的沉浸式虚拟现实空间。

相关推荐
ASKED_201916 分钟前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc22 分钟前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文30 分钟前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛1392462567342 分钟前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎1 小时前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF1 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学1 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled1 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao1 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能
波动几何2 小时前
因果动力学架构技能cda
人工智能