华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路

3D场景生成迎来突破,大平层里虚拟人也能自由行走

近日,华为联合上海交通大学、华中科技大学推出了全新的世界模型WorldGrow,该模型能够生成高达1800㎡的超大室内场景(19x39块),且单张A100显卡仅需30分钟即可生成272㎡的场景。

这一突破标志着AI在3D场景生成领域迈出了重要一步,生成的场景不仅具备连贯的几何拓扑和照片级真实感外观,还能让虚拟人在复杂空间布局中顺畅导航,自主规划路径。

3D大场景生成的老大难问题

传统3D场景生成技术存在诸多痛点。有些方法依靠2D模型生成图像后再强行转换为3D,结果导致视角变换时出现物体变形、纹理断裂等问题。

另一些方法则只能生成单个房间,扩展到多个房间的套房时就无法胜任;更糟糕的是缺乏合理的空间布局逻辑,经常出现冰箱塞进卧室、床摆在厨房等不合常理的布局。

团队背景

该论文的第一作者是来自上海交通大学的Sikuang Li和Chen Yang,这项研究是在他们于华为实习期间完成的。Chen Yang目前仍是华为的研究实习生,研究方向聚焦于计算机视觉和计算机图形学。

该研究的通讯作者是华为终端BG首席科学家、国际欧亚科学院院士、ACM/IEEE Fellow田奇,他是人工智能领域的知名专家。

论文地址:arxiv.org/abs/2510.21...

这一技术的推出,不仅为游戏开发、虚拟现实、室内设计等领域提供了强大的工具,也为未来元宇宙世界的大规模场景构建奠定了坚实基础。随着3D场景生成技术的不断成熟,AI构建的"大house"真的来了。

WorldGrow的三步填坑法

WorldGrow通过三项核心技术解决了这些难题。

  • 第一步:数据精准预处理

团队从3D-FRONT等大规模数据集中提取优质样本,使用Blender执行场景切片,通过布尔交集对场景进行区块切分,并利用occupancy检测确保区块内容密度(可见内容≥95%)。

同时构建了粗、细两个粒度的数据集------粗块负责确定宏观布局,细块则保留丰富的纹理细节。

  • 第二步:3D块无缝拼接机制

生成新区块时,系统先使用结构生成器确定3D结构框架,再通过latent生成器重建结构化潜变量(SLAT)特征,确保外观风格统一。

在模型输入阶段,系统将带噪潜变量、补全区域二进制掩码和已掩码的已知区域特征打包融合,使模型能够依据现有区块的上下文信息精准生成新内容,有效消除边缘断裂、纹理错位等拼接问题。

  • 第三步:粗到精生成策略

该方法将场景扩展任务转化为补全缺失块的问题。首先通过粗结构模型确定整体规划,包括窗户朝向、走廊连接等布局要素;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别;最后调用细结构生成器补全家具、纹理等细节。

性能表现卓越

实验结果显示,WorldGrow在3D-FRONT数据集上的几何重建指标MMD和COV均达到SOTA水平,FID(用于评估生成质量的核心指标,数值越低越好)低至7.52,大幅优于SynCity、BlockFusion等主流方法。

即使扩展到7×7块的大场景,边缘质量仍然保持稳定。

在效率方面,单张A100显卡仅需30分钟即可生成10×10区块(约272㎡)的室内场景,生成速度达到同类技术的6倍。

相关推荐
熬了夜的程序员6 小时前
【LeetCode】94. 二叉树的中序遍历
数据结构·算法·leetcode·职场和发展·深度优先
剑指~巅峰6 小时前
Rust智能指针的奇妙之旅:从踩坑到顿悟
开发语言·人工智能·深度学习·机器学习·rust
放羊郎6 小时前
SLAM各类算法特点对比
人工智能·算法·slam·视觉slam·建图·激光slam
熬了夜的程序员6 小时前
【LeetCode】92. 反转链表 II
数据结构·算法·leetcode·链表·职场和发展·排序算法
Y200309166 小时前
图像分割重点知识总结
人工智能·深度学习·计算机视觉
Aurorar0rua6 小时前
C Primer Plus Notes 10
c语言·开发语言·算法
知花实央l6 小时前
【数字逻辑】24小时数字钟实战!74HC161搭24/60进制计数器+Multisim仿真
算法·测试用例·1024程序员节
Sunhen_Qiletian6 小时前
高性能人工智能目标检测开山篇----YOLO v1算法详解(上篇)
人工智能·深度学习·yolo·目标检测·计算机视觉·目标跟踪
兮山与6 小时前
算法20.0
算法