Meta 推出SceneScript，一种全新的3D场景重建方式

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

https://www.projectaria.com/scenescript/

在今天的科技领域，元实验室研究团队宣布了一个名为"场景脚本"的创新方法，旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练，利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下，如果有一副既时尚又轻便的眼镜，能够结合上下文化的人工智能和显示屏，为你实时提供信息并在你日常生活中主动提供帮助，那将会是怎样的体验？为了实现这样一副增强现实（AR）眼镜，系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容，如将数字叠加物无缝融合进你的物理空间，或者在你探索陌生地点时提供逐步导航帮助。

Meta script

然而，构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔，如Meta Quest 3，是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状，如墙壁、天花板和门。通常，这些系统依靠预定义的规则将原始数据转换成形状。然而，这种启发式方法经常会导致错误，特别是在具有独特或不规则几何形状的空间中。

元实验室研究团队今天介绍的场景脚本，采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素，场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式，不仅减少了内存需求，还能产生类似于可伸缩矢量图形的清晰几何形状，并且重要的是，这种表示形式易于理解和编辑。

场景脚本是如何训练的？大型语言模型（LLMs），如Llama，使用一种称为下一令牌预测的技术，模型根据之前的单词预测句子中的下一个单词。例如，如果你输入"这只猫坐在......"模型可能会预测下一个单词是"垫子"或"地板"。场景脚本利用了LLMs所使用的同一概念。然而，它不是预测一般的语言令牌，而是预测下一个建筑令牌，如"墙"或"门"。

通过提供大量的训练数据，场景脚本模型学习如何将视觉数据编码成场景的基本表示，然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境，并创建有效描述其分析场景结构的文本描述。

培训场景脚本所面临的独特挑战在于，尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据，但对于训练端到端模型所需的物理空间的规模，尚不存在此类信息库。因此，元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集，该数据集包含100,000个完全独特的室内环境，每个环境都使用场景脚本语言描述，并配有模拟的场景漫游视频。

这种方法使得场景脚本模型可以完全在模拟条件下，保护隐私的情况下进行训练。然后，可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。

去年，他们将Aria Synthetic Environments数据集提供给学术研究人员，希望这将有助于加速这一令人兴奋的研究领域内的公共研究。