3D场景生成迎来突破,大平层里虚拟人也能自由行走
近日,华为联合上海交通大学、华中科技大学推出了全新的世界模型WorldGrow,该模型能够生成高达1800㎡的超大室内场景(19x39块),且单张A100显卡仅需30分钟即可生成272㎡的场景。
这一突破标志着AI在3D场景生成领域迈出了重要一步,生成的场景不仅具备连贯的几何拓扑和照片级真实感外观,还能让虚拟人在复杂空间布局中顺畅导航,自主规划路径。

3D大场景生成的老大难问题
传统3D场景生成技术存在诸多痛点。有些方法依靠2D模型生成图像后再强行转换为3D,结果导致视角变换时出现物体变形、纹理断裂等问题。
另一些方法则只能生成单个房间,扩展到多个房间的套房时就无法胜任;更糟糕的是缺乏合理的空间布局逻辑,经常出现冰箱塞进卧室、床摆在厨房等不合常理的布局。

团队背景
该论文的第一作者是来自上海交通大学的Sikuang Li和Chen Yang,这项研究是在他们于华为实习期间完成的。Chen Yang目前仍是华为的研究实习生,研究方向聚焦于计算机视觉和计算机图形学。
该研究的通讯作者是华为终端BG首席科学家、国际欧亚科学院院士、ACM/IEEE Fellow田奇,他是人工智能领域的知名专家。


这一技术的推出,不仅为游戏开发、虚拟现实、室内设计等领域提供了强大的工具,也为未来元宇宙世界的大规模场景构建奠定了坚实基础。随着3D场景生成技术的不断成熟,AI构建的"大house"真的来了。
WorldGrow的三步填坑法
WorldGrow通过三项核心技术解决了这些难题。

- 第一步:数据精准预处理
团队从3D-FRONT等大规模数据集中提取优质样本,使用Blender执行场景切片,通过布尔交集对场景进行区块切分,并利用occupancy检测确保区块内容密度(可见内容≥95%)。
同时构建了粗、细两个粒度的数据集------粗块负责确定宏观布局,细块则保留丰富的纹理细节。
- 第二步:3D块无缝拼接机制
生成新区块时,系统先使用结构生成器确定3D结构框架,再通过latent生成器重建结构化潜变量(SLAT)特征,确保外观风格统一。
在模型输入阶段,系统将带噪潜变量、补全区域二进制掩码和已掩码的已知区域特征打包融合,使模型能够依据现有区块的上下文信息精准生成新内容,有效消除边缘断裂、纹理错位等拼接问题。
- 第三步:粗到精生成策略
该方法将场景扩展任务转化为补全缺失块的问题。首先通过粗结构模型确定整体规划,包括窗户朝向、走廊连接等布局要素;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别;最后调用细结构生成器补全家具、纹理等细节。
性能表现卓越
实验结果显示,WorldGrow在3D-FRONT数据集上的几何重建指标MMD和COV均达到SOTA水平,FID(用于评估生成质量的核心指标,数值越低越好)低至7.52,大幅优于SynCity、BlockFusion等主流方法。

即使扩展到7×7块的大场景,边缘质量仍然保持稳定。

在效率方面,单张A100显卡仅需30分钟即可生成10×10区块(约272㎡)的室内场景,生成速度达到同类技术的6倍。