Meta 推出SceneScript,一种全新的3D场景重建方式

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

https://www.projectaria.com/scenescript/

在今天的科技领域,元实验室研究团队宣布了一个名为"场景脚本"的创新方法,旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练,利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下,如果有一副既时尚又轻便的眼镜,能够结合上下文化的人工智能和显示屏,为你实时提供信息并在你日常生活中主动提供帮助,那将会是怎样的体验?为了实现这样一副增强现实(AR)眼镜,系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容,如将数字叠加物无缝融合进你的物理空间,或者在你探索陌生地点时提供逐步导航帮助。

Meta script

然而,构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔,如Meta Quest 3,是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换成形状。然而,这种启发式方法经常会导致错误,特别是在具有独特或不规则几何形状的空间中。

元实验室研究团队今天介绍的场景脚本,采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素,场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式,不仅减少了内存需求,还能产生类似于可伸缩矢量图形的清晰几何形状,并且重要的是,这种表示形式易于理解和编辑。

场景脚本是如何训练的?大型语言模型(LLMs),如Llama,使用一种称为下一令牌预测的技术,模型根据之前的单词预测句子中的下一个单词。例如,如果你输入"这只猫坐在......"模型可能会预测下一个单词是"垫子"或"地板"。场景脚本利用了LLMs所使用的同一概念。然而,它不是预测一般的语言令牌,而是预测下一个建筑令牌,如"墙"或"门"。

通过提供大量的训练数据,场景脚本模型学习如何将视觉数据编码成场景的基本表示,然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境,并创建有效描述其分析场景结构的文本描述。

培训场景脚本所面临的独特挑战在于,尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据,但对于训练端到端模型所需的物理空间的规模,尚不存在此类信息库。因此,元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集,该数据集包含100,000个完全独特的室内环境,每个环境都使用场景脚本语言描述,并配有模拟的场景漫游视频。

这种方法使得场景脚本模型可以完全在模拟条件下,保护隐私的情况下进行训练。然后,可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。

去年,他们将Aria Synthetic Environments数据集提供给学术研究人员,希望这将有助于加速这一令人兴奋的研究领域内的公共研究。

相关推荐
Coding茶水间1 分钟前
基于深度学习的水稻虫害检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
试着2 分钟前
【投资学习】腾讯控股(0700.HK)
大数据·人工智能·业界资讯·腾讯
百泰派克生物科技2 分钟前
液相色谱-质谱(LC-MS)肽段分析
人工智能·生物学·质谱·实验外包
qq_411262422 分钟前
四博智联的`AI-01开发板`,基于乐鑫ESP32-C2 + 专属定制的离线语音模组
人工智能·物联网·四博智联
CodeCraft Studio7 分钟前
让项目管理更智能:基于 DHTMLX Gantt + AI 的自然语言项目构建方案
人工智能·项目管理·甘特图·dhtmlx·dhtmlx gantt·gantt
合合技术团队7 分钟前
论文解读-潜在思维链推理的全面综述
大数据·人工智能·深度学习·大模型
大千AI助手9 分钟前
贝叶斯错误率:机器学习性能的理论极限
人工智能·机器学习·贝叶斯·大千ai助手·贝叶斯误差率·ber·模型性能
数据智研10 分钟前
【数据分享】浙江统计年鉴(1984-2024)
大数据·人工智能
北京耐用通信10 分钟前
协议转换新标杆!耐达讯自动化Ethernet IP转CC-Link方案,让编码器‘说话‘更高效“
人工智能·物联网·网络协议·网络安全·自动化·信息与通信
科普瑞传感仪器12 分钟前
从“盲操作”到“智能感知”:六维力传感器解决装配卡死的创新方案
人工智能·科技·物联网·机器人·无人机·1024程序员节