SpatialLM:群核科技开源的 3D 空间理解多模态大语言模型

SpatialLM 是群核科技于 2025 年 3 月在英伟达 GTC 大会开源的空间理解多模态模型,核心是用普通手机视频低成本生成物理精确的结构化 3D 场景,解决传统大模型空间认知短板,赋能具身智能、AR/VR 等领域,目前已迭代至 1.5 版本并支持对话交互。以下从核心定位、技术架构、关键能力、版本与性能、应用场景、生态协同六方面展开详细介绍。


一、核心定位与发布背景

  • 核心目标:赋予机器人类似人类的空间认知与推理能力,打通"视频输入→3D 结构化理解→语义交互→场景应用"的全链路,降低 3D 空间建模与空间理解的门槛。
  • 核心痛点解决:突破传统大语言模型对物理世界几何、空间关系的理解局限,摆脱对激光雷达等昂贵设备的依赖,用消费级视频输入实现高精度 3D 重建与语义解析。
  • 开源属性 :面向开发者与研究社区开源,支持二次开发与适配,推动空间智能与具身智能生态发展。https://github.com/manycore-research/SpatialLM

二、技术架构与工作流程

SpatialLM 采用"视觉重建+点云编码+大模型语义推理"的多模态融合架构,端到端流程如下:

  1. 多源输入兼容:支持单目 RGB 视频(手机/相机拍摄)、RGBD 图像、LiDAR 点云等多种输入,适配消费级到专业级采集设备。
  2. 视频转 3D 点云:通过 MASt3R - SLAM 算法拆分视频帧,提取空间细节点、计算深度与位置,生成高密度 3D 点云模型,还原场景三维几何结构。
  3. 点云编码与特征压缩:专用点云编码器将非结构化点云转为紧凑特征向量,保留物体几何与语义信息,通过自适应网格划分减少约 70%计算负载。
  4. 大模型语义推理:基于 Llama/Qwen 等基础 LLM 框架,将特征向量映射为结构化"场景代码(scene codes)",包含房间布局、家具尺寸、物体坐标、空间关系等机器可读信息。
  5. 结构化输出与格式兼容:输出可转为 IFC 等行业标准格式,适配设计软件、机器人控制系统、AR/VR 引擎等下游工具。

三、关键能力与核心优势

能力/优势 具体说明
低成本 3D 重建 普通手机视频即可生成物理正确的 3D 场景,30 秒内完成单场景处理,成本较激光雷达方案降低 90%
空间认知与推理 解析墙壁、门窗、家具等元素的几何参数与空间关系(如通道宽度、物体间距),支持物理规则校验与路径规划
轻量高效部署 提供 0.5B(Qwen 基座)和 1B(Llama 基座)两个轻量版本,显存占用低至 2GB,适配边缘设备与云端部署
语义交互与指令理解 支持文本指令驱动的场景查询、修改与生成,例如"标注客厅沙发位置""计算餐桌到厨房的距离"
物理一致性保障 输出场景符合真实物理规则,确保尺寸、位置、物体碰撞关系等参数准确,适配机器人训练与虚拟仿真需求

四、版本迭代与性能参数

版本 发布时间 核心升级 关键参数
SpatialLM 初始版 2025.3 基础视频转 3D 场景、点云语义解析 0.5B/1B 模型;单场景处理≤30 秒;支持 IFC 格式输出
SpatialLM 1.5 2025.8 新增 SpatialLM - Chat 对话交互系统;端到端可交互场景生成;批量输出多样化场景 支持文本指令生成物理正确 3D 场景;适配机器人批量训练数据生成

五、核心应用场景

  1. 具身智能训练:为机器人提供低成本虚拟训练场,生成的 3D 场景经 SpatialVerse 合成数据引擎衍生亿万级变体,用于导航、避障、任务执行等训练,解决"数据短缺"问题。
  2. 建筑与室内设计:快速将现场视频转为 3D 布局图,辅助设计师进行方案规划、家具摆放模拟与空间优化,输出格式兼容主流设计软件。
  3. AR/VR 内容创建:将现实场景转化为虚拟环境素材,用于 AR 导航、VR 看房、虚拟展厅搭建,降低内容制作成本与周期。
  4. 空间数字化与资产管理:为商场、工厂、医院等场景生成结构化 3D 数字孪生模型,支持空间资源统计、设备定位与动线分析。
  5. 机器人与自动驾驶:辅助移动机器人(如扫地机、配送机器人)快速理解未知室内环境,支持实时路径规划与动态避障。

六、生态协同与对比优势

  1. 生态协同:与群核空间智能平台 SpatialVerse 深度联动,SpatialLM 生成的 3D 场景可通过 SpatialVerse 引擎生成海量合成数据,形成"采集 - 重建 - 合成 - 训练"闭环。
  2. 对比同类方案
    • 相比 Meta SceneScript:无需定制硬件,适配消费级视频输入,自然语言交互更灵活。
    • 相比传统 3D 重建工具:速度提升 3 倍以上,无需专业操作,自动完成语义标注与结构化输出。

七、总结

SpatialLM 以"低成本视频输入+高精度空间理解+开源赋能"为核心亮点,是连接现实空间与数字世界的关键技术桥梁。其轻量架构与多场景适配能力,使其成为空间智能领域的重要基础设施,推动具身智能、建筑数字化、AR/VR 等领域的技术落地与创新应用。

相关推荐
2501_946490381 天前
演艺科技艺术实践——Hirender“一控一显”架构在中戏光影艺术节的应用解析
科技·hirender·hecoos·多媒体播控·多媒体服务器·播控
金士镧(厦门)新材料有限公司1 天前
氧化镧:现代工业的重要稀土材料
人工智能·科技·安全·全文检索·生活·能源
白鲸开源1 天前
SeaTunnel × Gravitino:Schema URL 驱动的表结构自动感知方案
大数据·人工智能·开源
老星*1 天前
Playwright:微软开源的现代化浏览器自动化测试框架
开源·figma
爱学习的程序媛1 天前
【Web前端】“十五五”重大项目中的前端机遇
前端·科技·信息可视化·前端框架·创业创新·信息与通信
dehuisun1 天前
移动端智能体开源项目清单
开源
wdfk_prog1 天前
MAX14830 可移植 C 驱动实现分析:一个适合多串口扩展场景的开源基础版本
c语言·开发语言·开源
sin°θ_陈1 天前
CVPR 2026的3DGS卷到什么地步?工程语义上探:BrepGaussian如何打通图像到CAD的最后一公里?(Part II 4-6)
3d
计算机魔术师1 天前
一键沉浸式体验:清华开源OpenMAIC,重塑多智能体学习新范式
学习·typescript·开源·多智能体·openmaic