Meta 推出SceneScript,一种全新的3D场景重建方式

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

https://www.projectaria.com/scenescript/

在今天的科技领域,元实验室研究团队宣布了一个名为"场景脚本"的创新方法,旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练,利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下,如果有一副既时尚又轻便的眼镜,能够结合上下文化的人工智能和显示屏,为你实时提供信息并在你日常生活中主动提供帮助,那将会是怎样的体验?为了实现这样一副增强现实(AR)眼镜,系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容,如将数字叠加物无缝融合进你的物理空间,或者在你探索陌生地点时提供逐步导航帮助。

Meta script

然而,构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔,如Meta Quest 3,是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换成形状。然而,这种启发式方法经常会导致错误,特别是在具有独特或不规则几何形状的空间中。

元实验室研究团队今天介绍的场景脚本,采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素,场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式,不仅减少了内存需求,还能产生类似于可伸缩矢量图形的清晰几何形状,并且重要的是,这种表示形式易于理解和编辑。

场景脚本是如何训练的?大型语言模型(LLMs),如Llama,使用一种称为下一令牌预测的技术,模型根据之前的单词预测句子中的下一个单词。例如,如果你输入"这只猫坐在......"模型可能会预测下一个单词是"垫子"或"地板"。场景脚本利用了LLMs所使用的同一概念。然而,它不是预测一般的语言令牌,而是预测下一个建筑令牌,如"墙"或"门"。

通过提供大量的训练数据,场景脚本模型学习如何将视觉数据编码成场景的基本表示,然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境,并创建有效描述其分析场景结构的文本描述。

培训场景脚本所面临的独特挑战在于,尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据,但对于训练端到端模型所需的物理空间的规模,尚不存在此类信息库。因此,元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集,该数据集包含100,000个完全独特的室内环境,每个环境都使用场景脚本语言描述,并配有模拟的场景漫游视频。

这种方法使得场景脚本模型可以完全在模拟条件下,保护隐私的情况下进行训练。然后,可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。

去年,他们将Aria Synthetic Environments数据集提供给学术研究人员,希望这将有助于加速这一令人兴奋的研究领域内的公共研究。

相关推荐
西猫雷婶40 分钟前
pytorch基本运算-Python控制流梯度运算
人工智能·pytorch·python·深度学习·神经网络·机器学习
说私域41 分钟前
新零售第一阶段传统零售商的困境突破与二次增长路径:基于定制开发开源AI智能名片S2B2C商城小程序的实践探索
人工智能·开源·零售
寒月霜华1 小时前
机器学习-模型验证
人工智能·深度学习·机器学习
救救孩子把2 小时前
3-机器学习与大模型开发数学教程-第0章 预备知识-0-3 函数初步(多项式、指数、对数、三角函数、反函数)
人工智能·数学·机器学习
CareyWYR2 小时前
每周AI论文速递(250908-250912)
人工智能
张晓~183399481212 小时前
短视频矩阵源码-视频剪辑+AI智能体开发接入技术分享
c语言·c++·人工智能·矩阵·c#·php·音视频
deephub2 小时前
量子机器学习入门:三种数据编码方法对比与应用
人工智能·机器学习·量子计算·数据编码·量子机器学习
AI 嗯啦3 小时前
计算机视觉----opencv实战----指纹识别的案例
人工智能·opencv·计算机视觉
max5006003 小时前
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer
trsoliu3 小时前
前端基于 TypeScript 使用 Mastra 来开发一个 AI 应用 / AI 代理(Agent)
前端·人工智能