行业调研——XGRIDS （其域创新）：空间数据生产、资产化与工业工作流的真正价值

XGRIDS：空间数据生产、资产化与工业工作流的真正价值

[0. 引言](#0. 引言)
[1. XGRIDS 到底是什么公司](#1. XGRIDS 到底是什么公司)
- [1.1 不是扫描硬件+viewer，而是training-data bridge / Real2Sim2Real的桥梁](#1.1 不是扫描硬件+viewer，而是training-data bridge / Real2Sim2Real的桥梁)
- [1.2 价值描述](#1.2 价值描述)
- - [第一 Capture Entry](#第一 Capture Entry)
  - [第二 Asset Formation](#第二 Asset Formation)
  - [第三 Industry Interface](#第三 Industry Interface)
- [1.3 企业类型判断](#1.3 企业类型判断)
- [1.4 技术链路分析](#1.4 技术链路分析)
- - [1.4.1 数据采集层](#1.4.1 数据采集层)
  - [1.4.2 标定/预处理层](#1.4.2 标定/预处理层)
  - [1.4.3 三维重建 / 高斯表示层](#1.4.3 三维重建 / 高斯表示层)
  - [1.4.4 编辑 / 分割 / 语义理解层](#1.4.4 编辑 / 分割 / 语义理解层)
  - [1.4.5 压缩 / 发布层](#1.4.5 压缩 / 发布层)
  - [1.4.6 BIM/CAD/机器人/仿真接口层](#1.4.6 BIM/CAD/机器人/仿真接口层)
  - [1.4.7 产品矩阵](#1.4.7 产品矩阵)
- [1.5 业务链与收入结构：其域创新怎么赚钱](#1.5 业务链与收入结构：其域创新怎么赚钱)
- - [1.5.1 业务链条判断](#1.5.1 业务链条判断)
  - [1.5.2 单价与客单价的外部锚点](#1.5.2 单价与客单价的外部锚点)
[2. 常规 3DGS 重建路线](#2. 常规 3DGS 重建路线)
- [2.1 技术原理简述](#2.1 技术原理简述)
- [2.2 工程链路拆解](#2.2 工程链路拆解)
- [2.3 路线优势](#2.3 路线优势)
- [2.4 NeRF / 传统摄影测量 / 点云 / Mesh](#2.4 NeRF / 传统摄影测量 / 点云 / Mesh)
[3. 前馈式 3DGS 生成路线](#3. 前馈式 3DGS 生成路线)
- [3.1 原理简述](#3.1 原理简述)
- [3.2 路线难点](#3.2 路线难点)
- [3.3 简单列举几篇工作](#3.3 简单列举几篇工作)
- [3.4 合理切入位置](#3.4 合理切入位置)
- - [推荐位置 A：垂类场景产品化](#推荐位置 A：垂类场景产品化)
  - [推荐位置 B：行业数据与工作流整合](#推荐位置 B：行业数据与工作流整合)
  - [不推荐位置：通用 foundation model 竞争](#不推荐位置：通用 foundation model 竞争)
- [3.5 自我替代风险](#3.5 自我替代风险)
- [3.6 双路线对比与战略选择](#3.6 双路线对比与战略选择)
[4. 3DGS 为什么不能是护城河](#4. 3DGS 为什么不能是护城河)
- [第一，3DGS 已经开始进入更大平台的基础栈](#第一，3DGS 已经开始进入更大平台的基础栈)
- [第二，3DGS 更像"表达层"，而不是"控制层"](#第二，3DGS 更像“表达层”，而不是“控制层”)
- [第三，3DGS 无法单独回答"authoritative world asset"](#第三，3DGS 无法单独回答“authoritative world asset”)
参考文献
- 公司与产品资料（XGRIDS）
- 公司基本面与外部信息
- [NVIDIA / Physical AI / OpenUSD](#NVIDIA / Physical AI / OpenUSD)
- 产业对标与生态参照
- [3DGS / NeRF / 摄影测量基础文献](#3DGS / NeRF / 摄影测量基础文献)

系列文章（1-3）

1、行业调研------GTC上亮相的中国企业 XGRIDS （其域创新）：空间数据生产、资产化与工业工作流的真正价值

2、行业调研------为什么未来 10 年绕不过 NVIDIA：从 Omniverse、OpenUSD 到 Physical AI Data Factory

3、

0. 引言

如果把全球AI行业比作一场奥林匹克赛事，那么每年由 NVIDIA 举办的 GTC（GPU Technology Conference）大会几乎就是这场赛事的"开幕式"。从深度学习革命，到生成式 AI，再到如今的机器人与具身智能，许多关键技术趋势都在这里首次亮相。

而在刚刚举办的 GTC 2026 上，一个越来越清晰的信号是：AI 正在离开屏幕，走向真实世界。 在这场以机器人与 Physical AI 为核心主题的大会上，一家来自中国的空间智能公司------其域创新 XGRIDS 受邀在 GTC 主会场发表演讲，展示 Real2Sim 技术在具身智能领域的工程化实践，分享如何利用真实世界空间数据构建可扩展的机器人仿真环境。

正好最近正找实习，所以从其域创新入手来对目前英伟达把控的生态来一场背调。

结论先行：

XGRIDS 不是扫描硬件公司，空间智能的"采集入口---资产形成---行业接口"
3DGS 本身不是护城河，它只是空间数据生产的"新默认表达层"之一（也是未来许多数据资产的中间态）。
空间智能公司的核心竞争，不在"会不会重建"，而在"能不能形成 authoritative world asset"。
行业理解的新起点：training-data bridge / Real2Sim2Real 的桥梁层。

1. XGRIDS 到底是什么公司

主体识别与基本面

公开工商与招聘信息显示，公司主体为 深圳市其域创新科技有限公司 ，成立于 2020 年 12 月 22 日 ，法定代表人为 赵开勇 ，注册地址位于深圳南山区，注册资本 621.4122 万元 。不同企业信息平台对实缴资本、社保人数、人员规模的展示较一致：天眼查披露实缴资本约 175.56 万元 ；企查查/启信宝披露 2024 年参保人数为 94 人。

创始人赵开勇的公开履历偏"空间计算 + GPU/HPC + 机器人/SLAM"复合型背景。公开资料显示其曾任大疆部门负责人、达闼首席架构师兼研发副总裁、浪潮 GPU 负责人，并具有较强学术与专利背景。这个画像对公司当前产品路线是吻合的：既有实时重建和多传感器融合，也有面向仿真和世界模型的叙事。

从企业资质与知识产权看，企查查摘要显示公司目前有 125 条专利信息、7 条软件著作权、9 个资质证书、9 个行政许可；同时公司在 2025 年入选国家级专精特新"小巨人"，并获得深圳市"创客中国"创新创业大赛资助。对一家成立不足六年的空间智能公司而言，这说明其技术资产沉淀和政策信用都在增强。

1.1 不是扫描硬件+viewer，而是training-data bridge / Real2Sim2Real的桥梁

行业里最常见的误判------把空间智能公司都看成"硬件 + 算法 + viewer"的老三样。当成 "硬件供应商 + 配套软件"。

它只描述了 XGRIDS 类型公司最表层、最容易被看见、也最容易被低估的一层：设备。默认价值主要来自设备销售，软件只是附属。于是分析会停留在设备参数、扫描速度、精度指标、点云密度、机身重量、价格带和便携性上。这样的分析当然不是没用，但它解释不了一个更关键的问题：

为什么越来越多公司不是停在"扫出来"，而是在向"管起来、接出去、持续用"上移？

如果只看硬件，XGRIDS 当然可以被归入扫描设备公司。它有 Lixel K1、L2 Pro、PortalCam 这样的采集入口，有 LiDAR、多相机、SLAM、移动建图这些明显的硬件与感知栈特征，也有设备参数的典型设备公司叙事。但问题恰恰在于：设备只是入口，不是价值闭环本身。

它不是单纯卖扫描设备，而是在争夺"真实世界空间数据如何被采进来、组织起来、转成资产并接入行业工作流"的控制权。

采集驱动型的空间数据生产与资产化工作流公司。 这一定义不是未来"说得更高级"，而是它更符合这家公司当前产品结构所指向的实际位置。XGRIDS 公开展示的东西，已经不只是采集硬件+viewer，而是一条相对清晰的链路：

采集设备 → 标定与预处理 → 常规 3DGS / 点云重建 → 压缩与发布 → BIM / CAD / Revit / Unreal / Unity / Isaac Sim 等接口 → 云端访问与协作。

只要把这条链路展开看，你就会发现，XGRIDS 已经不再是一个"设备卖完即价值兑现"的公司。它在做的是另一件更重要的事：把一次采集行为，转化为可被后续系统持续消费的空间结果。

这些数据如何变成稳定可用的空间表达；
这些表达如何变成可管理、可发布、可协作、可复用的资产；
这些资产如何接入 BIM、CAD、仿真、机器人、影视、运维等正式工作流。

如果只解决第一个问题，XGRIDS 是设备公司。

如果只解决前两个问题，XGRIDS 是内容生产工具公司。

只有同时触达第三个问题，它才是"空间智能工业工作流基础设施"。

1.2 价值描述

我现在更愿意用一个三段式来描述它的价值位置：

第一 Capture Entry

现实世界空间数据不是凭空来的，必须经过设备、传感器、SLAM、多模态采集、轨迹估计、标定和质量控制。谁掌握这个入口，谁定义"什么是真实输入"。

第二 Asset Formation

这一步才是真正被大量分析低估的部分。

因为从点云、图像、轨迹、位姿、LiDAR、视频，到最终可浏览、可标注、可压缩、可发布、可进一步加工的空间结果，中间存在巨大的工程鸿沟。

这个鸿沟不是"加一个 viewer"就能跨过去的，而是需要：

数据预处理；
坐标系统一；
重建与表达；
质量门禁；
轻量化与压缩；
项目组织；
版本与权限；
结果发布。

这一步决定了结果到底是一个一次性文件，还是一个可持续消费的空间资产。

第三 Industry Interface

这是 XGRIDS 最值得你重新评估的一层。

因为一旦空间结果不能接入正式工作流，它的产业价值就会迅速下降为"演示资产"或"展示内容"。

所以，LCC for Revit、对 BIM / CAD 流程的适配、对 Unreal / Unity / Web 的分发、与仿真系统的连接、对开发者与合作伙伴工具链的开放，这些都不是"锦上添花的功能"。它们实际上决定：

XGRIDS 输出的到底是一个可看的模型，还是一个可被行业系统消费的结果。

这个真实空间快速转译的结果能否被企业系统接纳、可被多人协作、可被多流程复用。

1.3 企业类型判断

维度	说明
设备公司	有较强设备属性，K1/L2 Pro/PortalCam 明确存在硬件收入锚点
算法公司	Multi-SLAM + 3DGS + 点云处理 + BIM 插件是核心能力
软件平台公司	已出现 license、cloud、viewer、SDK、插件，但平台统治力未形成
数字孪生方案公司	有行业案例，但不是项目制平台龙头形态
空间智能基础设施公司（目标）	这是最值得追求的位置，但仍处于构建早期

1.4 技术链路分析

数据采集 → 标定/预处理 → 三维重建/高斯表示 → 编辑/语义理解 → 压缩/发布 → BIM/CAD/机器人/仿真/云协同

1.4.1 数据采集层

公开资料显示，XGRIDS 已形成多档硬件矩阵：K1、L2 Pro、PortalCam 等；同时官方明确强调 Multi-SLAM、多传感器融合、LiDAR + 多相机阵列、RTK 与手持/移动工作流。

强项

有真实的物理采集入口，而不是纯软件后处理公司；
K1 / L2 Pro / PortalCam 形成从工程扫描到轻量空间内容生产的价格带；
手持/移动采集显著降低建模门槛，利于场景扩张；
多视角、多模态输入更适合后续重建稳定性和几何约束。

短板

航空入口、自动化机库、低空平台、长期运维链路不如 DJI；
与工业级测绘头部相比，品牌信任和行业标准地位仍在建立；
若未来要覆盖更大场景，仍需更强的空地一体采集编排能力。

外部依赖

LiDAR / 相机 / IMU / RTK 供应链；
部分工业客户对测量等级和标准认证的要求；
空间相机和手持设备的渠道售后体系。

1.4.2 标定/预处理层

Lixel Studio 页面公开强调 7-parameter datum transformation、geoid model integration、LAS/E57/RCP 等标准格式导出，这说明 XGRIDS 已进入工程基准、坐标转换、点云标准格式和 BIM/CAD 对接层，而非只可视化渲染。

强项

工程坐标、基准转换和标准格式输出，是 AEC / 测绘等可用性的关键；
"好看"走向"可用"的核心门槛；
对外部工作流有较强兼容性。

短板

若要进一步占领测绘/基础设施，需更强 QA 体系、误差报告、批处理与资产级项目管理；
仍要持续解决大场景拼接、全局一致性、跨日重采样和质量追踪。（从官方最近在IROS2025的工作看已经有一定成果）

1.4.3 三维重建 / 高斯表示层

官方把 LCC 直接定义为由 Multi-SLAM + 3D Gaussian Splatting 驱动的 3D 内容生产系统；LCC Studio 则强调将扫描数据处理为 photorealistic 3DGS 模型，并以 .ply / .lcc 输出，可实现 90% 更小文件体积。

强项

已有产品化的 3DGS 引擎；
已将 GS 表达嵌入硬件-软件闭环，而不是独立算法模块；
已有压缩、跨端访问、编辑与分享的处理链路。

短板

公开信息中尚看不到其在大规模几何一致性、法向/深度约束、反光/透明物体处理上的系统性领先证据；
若 3DGS 成为 DJI/NVIDIA/Niantic 等平台的基础能力，单一重建引擎会失去稀缺性；
需要把"高保真展示"升级为"行业级可运算空间资产"。如何将空间智能与物理属性纳入GS是后续的主要方向

1.4.4 编辑 / 分割 / 语义理解层

LCC for Revit 公开强调 AI 自动识别 walls, doors, windows, levels，并宣称可将 BIM 建模时间缩短 70%--90%。这说明 XGRIDS 已开始把 3DGS 从视觉表达向"结构抽取 + BIM 语义化"推进。

强项

已触达高价值语义层，而非停留在 viewer；
语义化是走向 Scan-to-BIM、资产管理、机器人场景理解的关键；
这一层可直接提升客户 ROI。

短板

目前公开语义能力仍以 BIM 构件为主，尚未看到通用 open-vocabulary / industrial semantics 平台化能力；
缺少对复杂工业设施、管线、构件族、设备台账的广义语义栈公开证据。

1.4.5 压缩 / 发布层

LCC Studio 与 LCC 官方页面公开强调 90% 更小文件体积、跨平台访问、分享、注释、编辑与发布。

强项

已意识到 3DGS 真正产品化的瓶颈不只是重建，而是存储、传输、协作与发布；
压缩和发布层一旦做好，会直接提升团队协作和 SaaS 化能力。

短板

需要进一步做版本管理、访问权限、资产索引、跨项目知识复用。

1.4.6 BIM/CAD/机器人/仿真接口层

XGRIDS 已公开推出 LCC for Revit，并公开宣传与 NVIDIA Isaac Sim 的集成，PortalCam / LCC 页面也明确强调 Unreal / Unity / Web 等 SDK 兼容或开发者工作流。

强项

这是真正可能形成生态锁定的位置；
下游接口越深，越难被"上游扫描硬件"或"底层算法能力"替代；
对 BIM、仿真、机器人、影视等多垂类的共用价值高。

短板

目前接口体系仍偏点状，尚未形成行业平台级标准事实；
需避免只停留在"导出插件"层，而要做成"可验证、可维护、可协作"的工作流中台。

1.4.7 产品矩阵

1. 硬件层：从手持 SLAM 到空间相机

官网显示其域创新的前台产品线已经不止单一手持 LiDAR，而是形成了多级硬件矩阵，包括 灵光 L2 Pro、灵光 K1、PortalCam、灵视 P1、凌巡 S1、灵光 M1 等。其中文件和官网片段可验证的核心产品至少包括 K1、L2 Pro 与 PortalCam。citeturn447392search3turn447392search0

其中，Lixel K1 的公开规格强调轻量化和移动扫描，英文产品页给出关键指标：±1.2cm 精度、200,000 points/sec、40m 量程、1.5 小时续航、<1kg 重量。它明显面向中小场景、室内空间、轻量化建模和快速走扫应用。

Lixel L2 Pro 则明显定位更高阶：第三方产品页与渠道页披露其可实现 1cm 相对精度、3cm 实时绝对精度、120m/300m 量程、320k/640k pts/s，并支持 RTK 和车载挂载等扩展，适合大场景测绘、基础设施、工地与外业盘测。

PortalCam 的定位更加"消费级门槛降低 + 3DGS 空间内容生产"。官方商店与渠道资料均将其定义为 "First True Spatial Camera / 第一台真正的空间相机" ，官方商店公开价为 4,999 美元 ，渠道资料披露其 LiDAR 扫描速率可达 856,000 pts/s。这意味着其域创新不仅做测绘和工业设备，也在尝试把空间内容生产扩展到更轻量、更易传播的入口级产品。

2. 软件层：从点云处理走向 3DGS 内容生产

公开协议、官网和产品页显示，其软件产品至少包括 Lixel Studio、Lixel CyberColor、Lixel GO、LCC Scan App、LCC Cloud、LCC for Revit。其中 Lixel Studio 更偏工程处理、测量、坐标系统、导出和后处理；Lixel CyberColor（LCC）更偏 3DGS 场景生成与高写实内容表达。

Lixel Studio 的页面明确强调了其对工程流程的适配能力：支持 8 种以上主流坐标系统、七参数基准转换、大地水准面格网模型高程拟合。这不是纯可视化软件的叙事，而是明显在争夺测绘/BIM/GIS 的工程入口。

LCC 则直接对应其域创新在 3DGS 方向的差异化定位。公司在外部招聘与国际 PR 中把它表述为 SLAM-based Gaussian Splatting software，并强调从扫描到高写实三维环境生成的速度与可测量性。换句话说，公司试图把"点云/影像采集设备厂商"升级成"空间内容生产平台"

3. 行业适配层：BIM、测绘、影视、仿真

官网首页与内容页可见，LCC for Revit 已被明确列为产品模块；相关外部教程也说明 XGRIDS 扫描数据可通过共享坐标等方式与 Revit/Civil 3D 流程对接。对投资人而言，这代表其域创新并非止步于"扫描仪卖出"，而是在争夺下游设计建模流程中的数据入口。

先说清楚，3DGS 重要是事实。

它至少同时解决了过去三维内容生产中最痛的三件事：

真实场景高保真表达

它显著提升了从真实采集到可视化结果之间的保真度与效率平衡。
实时性与可交互性

相比更慢、更重的隐式场表示，3DGS 更容易做成工程化浏览、编辑、分发与轻量访问。
从重建到展示的链路缩短

它让"采完---处理---可看"的时间大幅缩短，从而具备了真正产品化的基础。

这也是为什么 XGRIDS 选择把常规 3DGS 嵌入产品主链路，这个判断本身没有问题。从产业演化看，3DGS 确实是过去几年现实捕获与空间表达层里最重要的技术跃迁之一。但重要不等于护城河。一项技术越重要，只要它具备足够明确的工程价值，它就越容易被平台吸收为默认能力。

1.5 业务链与收入结构：其域创新怎么赚钱

1.5.1 业务链条判断

结合官网、商店、案例和招聘信息，其域创新的商业链条可以概括为：

上游：激光雷达、相机、IMU、RTK、嵌入式计算、结构件与配件；
中游：采集设备销售 + 本地/边缘重建 + 点云/3DGS 软件 + 云端管理与分发；
下游：AEC/BIM、道路资产盘点、煤堆/体积测量、影视预拍摄、数字孪生、机器人仿真与训练数据。

这意味着公司收入并非单一来自硬件，而是至少包含四层：

第一层，硬件一次性收入 ；

第二层，软件许可证/订阅收入 ；

第三层，云端/数据服务与协作收入 ；

第四层，行业方案与项目化服务收入 。

这一判断能从其官方商店与产品命名中得到直接支持：官方商店单独售卖 Lixel CyberColor 1 Year License，说明软件付费是明确存在的，而非硬件附赠功能。

1.5.2 单价与客单价的外部锚点

公开官方与渠道售价可以给出若干价格锚点，但要注意 渠道价不等于公司净收入 ，只能作为客单价区间参考。官方商店公开的 PortalCam 套装价为 4,999 美元 ；第三方渠道披露 K1 约 12,365 美元 ，L2 Pro 欧盟渠道价约 31,952.73 欧元（未含 VAT） 。因此，其域创新当前产品组合横跨约 5 千美元到 3 万欧元以上 的设备价格带，外加独立软件授权。

对投资分析而言，这个价格带有三层含义：

其一，设备端具备一定 ASP（平均销售单价）支撑，不是低毛利消费电子打法；

其二，软件 license 的存在，为"硬件毛利受渠道挤压"提供了对冲；

其三，若云端协作、行业模板、Revit/仿真插件持续增强，公司有机会逐步把收入结构从 CAPEX 一次性销售，转向 "CAPEX + SaaS/订阅 + 服务" 的复合模式。上述第三点属于推断，但其方向与现有产品结构高度一致。

2. 常规 3DGS 重建路线

2.1 技术原理简述

经典 3DGS 路线本质上是：
真实多视图采集 → 位姿求解（通常依赖 SfM / COLMAP 类工具）→ 稀疏初始化 → 3D Gaussian 参数优化（位置、协方差、透明度、颜色/SH）→ 通过高效 splatting 实现实时新视角渲染。

原始 3DGS 论文强调其实时渲染与高保真新视角优势；COLMAP 仍是广泛使用的 SfM/MVS 基座。原始 3DGS 数学基础与工程可以看我之前写的这篇，硬核的技术底层我就不在这赘述了。

2.2 工程链路拆解

数据采集：手机、相机、视频、手持 LiDAR、深度相机、IMU、RTK；
位姿 / 初始化：SfM、COLMAP、VIO / SLAM、多传感器融合；
高斯优化：密化、裁剪、opacity 管理、尺度/协方差优化；
几何约束增强：深度、法向、外参一致性、先验约束；
大场景工程化：分块、拼接、流式渲染、压缩；
后处理与分发：编辑、测量、注释、viewer、BIM/CAD/仿真。

2.3 路线优势

对真实场景保真度高；
与真实采集硬件天然匹配；
在影视预制片、数字展陈、实景空间浏览、Scan-to-BIM、仿真场景生成方面商业路径清晰；
一旦与 SLAM / LiDAR / 多传感器融合结合，可同时兼顾效率与真实世界覆盖；
在实时预览和沉浸式浏览上，通常优于传统 NeRF 训练/渲染效率。

2.4 NeRF / 传统摄影测量 / 点云 / Mesh

路线	主要优势	主要不足	对 XGRIDS 的意义
传统摄影测量 / SfM-MVS	测绘/工程成熟、可解释、标准多	效率较低，视觉沉浸感弱	仍是工程坐标和质量基线
点云/TLS/SLAM	几何可靠、量测友好	表达不够逼真	是 XGRIDS 的工程底座
Mesh 工作流	CAD/BIM/游戏兼容强	制作成本高、实时更新差	重要下游目标，但非最优上游表达
NeRF	视觉质量好	训练/渲染成本较高，交互弱	作为历史参照，不是 XGRIDS 最优产品形态，后续3DGS转mesh路线成熟后完全可以重构

若以此路线为核心，在以下场景有较强机会：

AEC / Scan-to-BIM / 施工进度 / 资产盘点；
文旅 / 影视预制片 / 虚拟制片资产；
大空间展示与沉浸式空间内容；
机器人/仿真环境数据准备。

常规 3DGS 技术路线竞争未来不会消失，但会快速商品化。 它会越来越像"空间数据生产的基础层能力"，而不是单独的长期护城河。真正的长期壁垒，将转移到：

质量控制；
标准化工作流；
语义与结构提取；
发布与资产管理；
BIM/CAD/仿真/机器人接口；
行业数据沉淀与客户流程锁定。

3. 前馈式 3DGS 生成路线

3.1 原理简述

前馈式 3DGS 路线的核心不是"对单个场景做长时间优化"，而是通过 Transformer / diffusion / geometry-aware large model 在一次前向或极少迭代中，直接从txt、单图、少图、无姿态图像集合预测 3D Gaussian 表示。去年的LGM、GRM、Splatt3R、AnySplat 都属于这一范式的重要代表（近期的一些工作我后续单独分析）。

大幅降低单场景优化时间；
降低输入门槛，对少图/无位姿/随手拍更友好；
适合电商资产生成、游戏资产生成、UGC 世界构建、文旅内容生产；
对未来交互式 3D agent / design copilot / world model 具有重要价值。

从实现路径上看，现有前馈式 3DGS 方法大致可归纳为两条主链路：像素域路线 与特征域路线：

像素域路线（pixel-space pipeline）

像素域路线直接从输入图像的 RGB、alpha、depth 或多视图像素栅格中回归 Gaussian 参数，核心思想是让网络在较靠近图像观测层的表示空间中完成 2D-to-3D lifting。其典型流程通常包括：图像编码、多视图信息聚合、2D 特征到 3D 参数映射，以及 Gaussian 属性预测。预测变量一般包括高斯中心 μ i \mu_i μi、尺度/协方差 Σ i \Sigma_i Σi、不透明度 α i \alpha_i αi、颜色或 SH 系数 c i c_i ci 等。该路线的优点是实现直接、推理速度快、端到端性强，容易继承大规模图像模型的表征能力；但其难点在于，若缺乏足够强的几何约束，模型容易生成视觉上合理但几何上不稳定的 Gaussian 分布，尤其在遮挡区、薄结构、少视角区域更容易出现深度漂移与结构伪影。

特征域路线（feature-space pipeline 我主要在做这块）

特征域路线则先将图像编码为更抽象的中间表征，例如多视图特征体、token 序列、patch-level geometry-aware descriptors 或 latent scene representation，再在该特征空间中完成跨视图融合、几何推理与 Gaussian 解码。与像素域直接回归相比，这一路线更强调在特征空间中显式建模视图一致性、局部对应关系、三维结构约束与场景先验。其优点是几何表达通常更稳，更适合接入 Transformer、cross-view attention、cost volume、epipolar prior 或 scene token reasoning 等模块；但代价是系统复杂度更高，对训练数据规模、特征设计和跨视图对齐质量要求也更高。

可以把两条链路的差异简要概括为：

像素域路线更偏向"从观测直接回归表示"，强调速度、直接性与端到端生成；

特征域路线更偏向"先构造中间几何表征，再解码为 Gaussian"，强调结构一致性与几何稳健性。

3.2 路线难点

训练数据门槛高 ：
需要大量高质量 2D-3D 对齐数据、姿态信息、多样视角和场景覆盖； 真实工程场景、工业设施、BIM 构件、反光/透明物体等长尾难收集。
几何可靠性不足 ：
生成结果可能"看起来像"，但不一定满足工程可量测和结构真实。
泛化与尺度问题 ：
物体级、房间级、城市片段级、工业设施级的数据分布差异极大。
商业化模式不同 ：
其价值更偏内容生产与效率提升，不天然等于工程交付可信度。
资本与算力消耗高 ：
若做通用 foundation model，组织、算力、数据和持续评测成本都显著高于当前 XGRIDS 最优投入区。

3.3 简单列举几篇工作

GRM：强调 large-scale reconstructor，可从 sparse-view images 在约 0.1 秒级恢复 3D asset，展示了 feed-forward 高速重建潜力；但其典型优势更适合通用资产/内容生成，而非直接等价于工程现场量测底座。
LGM：支持从 text 或单图/多图生成高分辨率 3D Gaussian 对象，更像内容生成和资产制作工具链的重要方向。
Splatt3R / AnySplat：向无位姿、自然图像、随手拍和 unconstrained views 推进，证明 feed-forward 3DGS 正在从受控数据走向更真实输入，但距离高可信工程交付仍有明显差距。

结论：不适合作为未来 2 年主营。

原因：

工程/测量场景需要可追溯几何、坐标、误差边界和多次复核；
前馈式路线当前更强在"快"和"像"，而不是"测量可信"；
对真实行业 ROI 来说，它更适合作为增强层，而非 authoritative truth layer。

3.4 合理切入位置

若中小厂布局前馈式 3DGS，最合理的位置不是"做通用底层大模型研发者"，而是：

推荐位置 A：垂类场景产品化

围绕 AEC、工地、厂房、影视、仿真等真实空间场景，把前馈模型用作：

稀疏采集补全；
遮挡区域修复；
低质量采集增强；
构件级自动初始识别；
viewer 端快速粗模预览；
scan-to-BIM 的语义预标注。

推荐位置 B：行业数据与工作流整合

利用真实扫描资产、BIM 对照数据、Revit 插件使用记录、行业标签和测量反馈，建立垂类数据资产库，为后续训练"行业专用增强模型"做准备。

不推荐位置：通用 foundation model 竞争

原因很简单：

大模型训练资金消耗大；
大厂和研究型平台会更快占据通用模型话语权；
中小企业与其正面竞争，边际胜率低。

3.5 自我替代风险

前馈式路线对 XGRIDS 的现有采集硬件既是增强，也有替代风险：

增强面：降低采集要求，可提升设备效率与用户体验；
替代面：若用户能用更少数据生成"足够好"的结果，则会削弱"必须买专业扫描设备"的理由。

因此，最优策略不是把前馈模型当成硬件替代品，而是把它设计成 硬件价值放大：

用于加速；
用于补全；
用于智能辅助；
不用于替代测量可信采集。

3.6 双路线对比与战略选择

维度	常规 3DGS 重建	前馈式 3DGS 生成
技术范式	数据驱动重建，单场景优化/较强场景依赖	模型驱动预测，一次前向/极少迭代
输入要求	多视图/采集质量较高，通常依赖位姿或 SLAM	单图/少图/无位姿也可尝试
数据壁垒	来自采集能力、真实场景和工作流	来自大规模训练数据与模型能力
研发成本	中高，但可与产品现金流联动	高，且前期偏重投入
产品化速度	快，当前已可规模商用	中，垂类可做增强，通用化难
工程可量测性	更容易做到可控、可校验	当前整体偏弱
资本消耗	相对可控	更高
最强场景	AEC、测量、影视预拍、仿真真实环境	内容生成、资产生成、少图增强
大厂替代风险	高（已在商品化）	极高（大模型平台优势明显）
XGRIDS 当前适配度	高	中低
推荐角色	主营主线	战略储备 / 增强层

不建议把公司主叙事转成"通用 3D 大模型公司"；
不建议重资产追求泛化到所有消费级 3D 生成场景；
不建议把硬件主线过早边缘化。

4. 3DGS 为什么不能是护城河

我现在判断 3DGS 不是长期护城河，主要基于三个原因。

第一，3DGS 已经开始进入更大平台的基础栈

当一项能力还只存在于论文、demo 或少数创业公司里时，它有差异化价值。

但当它开始被更大平台吸收时，它的战略属性就会发生变化。

今天更值得注意的，不是"3DGS效果好"，而是：

DJI Terra 已经公开纳入 3D Gaussian Splatting 叙事；
NVIDIA 已经把 3DGS 纳入 Omniverse / physical AI 相关工作流与 real-to-sim 叙事；
Niantic Spatial 的重点也早已不是"有没有重建"，而是 Capture / Reconstruct / Localize / Understand 的完整空间智能栈。

这些信号共同说明了一件事：

3DGS 正在从"先进能力"变成"平台能力"。

一旦进入这个阶段，行业竞争的焦点就不会长期停留在"谁会 3DGS"，而会转向：

谁能把它接得更深；
谁能把它放进正式工作流；
谁能围绕它形成难迁移的资产与管理体系。

第二，3DGS 更像"表达层"，而不是"控制层"

3DGS 非常强，但它主要强在表达效率和视觉表现上。

这意味着它天然适合作为一个核心显示层、内容层、分发层、交互层甚至是与其它形式数据转换的中间态。

但表达层不等于控制层。客户真正长期离不开的，不是"某个场景是用 Gaussian 还是 mesh 表达"，而是以下这些控制关系：

采集入口是谁在掌握；
数据怎么组织；
坐标和语义怎么定义；
资产怎么发布与更新；
权限怎么管理；
结果如何进 BIM / CAD / 仿真 / 机器人；
多轮复用和协作如何发生。

所以，从企业视角看，3DGS 是很重要的"how"，

但客户最终付费的，往往是"what gets controlled"。

第三，3DGS 无法单独回答"authoritative world asset"

一个 3DGS 模型可以非常真实、非常丝滑、非常可看。

但"可看"并不自动等于"可交付""可治理""可训练""可评测"。

如果一个空间结果缺少以下能力：

坐标锚定；
结构语义；
差分更新；
版本谱系；
权限治理；
状态追踪；
正式接口；
质量边界；

那么它仍然更像一个高级内容文件，而不是企业真正意义上的 world asset。

参考文献