SAM 的核心价值在于:它不是针对固定类别训练的分割器,而是一个 可提示、类别无关、零样本迁移能力强的通用 mask 生成器 。SAM 论文中明确指出,模型被设计和训练为 promptable,因此能够零样本迁移到新的图像分布和任务;其训练数据 SA-1B 包含 1100 万张图像和超过 10 亿个 mask。(arXiv)
在机器人融合感知中,SAM 通常不单独完成"理解",而是作为 通用区域提议与像素级分割模块,与深度相机、点云、SLAM、CLIP/VLM、检测器、跟踪器和规划控制模块融合。
1. 开放世界目标分割与区域提取
机器人在真实环境中会遇到大量未见过的物体,例如新工具、杂物、障碍物、容器、可操作部件等。传统检测/分割模型往往受限于训练类别,而 SAM 可以根据点、框、mask 等提示生成类别无关的目标区域。
应用方式:
text
RGB 图像 → SAM 自动/提示分割 → 候选 mask → 后续识别、跟踪、抓取或建图
优势:
- 不依赖固定类别标签;
- 能分割未知物体和物体部件;
- 可作为机器人感知系统的"前景/实例候选生成器";
- 适合开放环境、家庭服务机器人、仓储机器人和野外机器人。
2. 文本驱动的开放词汇感知
SAM 本身只输出 mask,不输出类别语义。将 SAM 与 Grounding DINO、CLIP、VLM 等结合后,可以实现"文本定位 + 精细分割 + 语义识别"。
典型形式是:
text
语言指令:"找到桌上的红色杯子"
↓
Grounding DINO / VLM 定位目标框
↓
SAM 精细分割目标 mask
↓
机器人获得目标区域、类别和空间位置
Grounded SAM 就是将 Grounding DINO 的开放集检测能力与 SAM 的分割能力结合,使系统可以根据任意文本输入检测并分割区域。(arXiv)
Open-Vocabulary SAM 进一步探索 SAM 与 CLIP 的融合,使模型同时具备交互分割和开放词汇识别能力,并报告可分割和识别约 22,000 个类别。(arXiv)
优势:
- 支持自然语言目标查询;
- 可处理机器人未预定义的类别;
- 适合"语言-视觉-动作"闭环;
- 可用于具身智能中的指令 grounding。
3. RGB-D / 点云融合的 3D 目标实例分割
机器人通常不仅需要知道"图像中哪里是目标",还需要知道目标的三维位置、尺寸和可操作区域。SAM 输出的 2D mask 可以与深度图或点云融合,投影生成 3D 实例。
典型流程:
text
RGB 图像 + 深度图
↓
SAM 生成 2D mask
↓
根据相机内参将 mask 内像素投影为点云
↓
得到目标级 3D 点云实例
↓
用于抓取、避障、建图、位姿估计
输出结果:
- 目标 2D mask;
- 目标 3D 点云;
- 目标中心点;
- 包围盒;
- 表面几何;
- 可抓取区域;
- 与地图坐标系对齐的物体实体。
优势:
- 把 SAM 的二维泛化能力扩展到三维空间;
- 可减少纯点云分割对类别和几何先验的依赖;
- 适合 RGB-D 相机、双目相机、激光雷达-相机融合系统。
4. 零样本 6D 位姿估计
在机器人操作中,仅有 mask 还不够,机械臂往往需要知道目标的 6D 位姿。SAM-6D 将 SAM 用于零样本 6D 物体位姿估计,先通过 SAM 生成类别无关的物体候选区域,再结合 RGB-D 几何匹配估计目标位姿。该方法面向新物体、杂乱场景和零样本设置。(arXiv)
应用流程:
text
RGB-D 图像
↓
SAM 生成候选实例 mask
↓
提取目标区域点云
↓
与 CAD 模型 / 参考点云匹配
↓
输出目标 6D 位姿
适用场景:
- 机械臂抓取;
- 工业零件装配;
- 未知物体定位;
- 杂乱桌面操作;
- 仓储拣选。
优势:
- 对新物体更友好;
- 减少每个类别单独训练位姿模型的需求;
- 可与深度相机和几何匹配方法互补。
5. 泛化抓取检测与操作感知
SAM 的类别无关分割能力可以用于目标抓取前的实例隔离。GraspSAM 将 SAM 扩展到提示驱动、类别无关的抓取检测任务,利用 SAM 的大规模训练和 prompt 分割能力支持目标物体抓取和类别无关抓取。(arXiv)
典型应用:
text
用户点击 / 文本指定 / 检测器框选目标
↓
SAM 分割目标
↓
提取目标轮廓、中心、边界、可见表面
↓
抓取检测网络生成抓取点
↓
机械臂执行抓取
优势:
- 可以抓取训练集中没有出现过的物体;
- 支持"点一下就抓""框一下就抓""说出目标就抓";
- 分割结果能过滤背景干扰,提高抓取检测稳定性;
- 适合家庭服务、仓储、农业采摘、实验室自动化等场景。
6. 语义 SLAM 与开放世界地图构建
SAM 可以为 SLAM 系统提供高质量实例 mask,再与深度、位姿估计、语义识别模块结合,构建对象级或语义级地图。语义 SLAM 研究普遍认为,引入语义信息可以增强场景理解和地图精度。(ScienceDirect)
融合方式:
text
相机图像 + 深度 / 激光点云 + 机器人位姿
↓
SAM 生成实例 mask
↓
CLIP / VLM 赋予语义标签
↓
投影到 3D 地图
↓
形成对象级语义地图
地图中可保存:
- 物体位置;
- 物体类别或文本描述;
- 物体 mask / 点云;
- 可通行区域;
- 障碍物区域;
- 可操作物体;
- 场景拓扑关系。
优势:
- 机器人可以从"几何地图"升级到"对象语义地图";
- 支持自然语言导航,例如"去椅子旁边""找到桌上的工具";
- 有利于长期任务记忆和场景变化检测。
7. 动态目标跟踪与视频级分割
机器人感知不是单帧任务,而是连续视频流任务。SAM2 将 SAM 从图像扩展到图像和视频中的可提示视觉分割,使用 streaming memory 支持实时视频处理,并在视频分割中使用更少交互达到更好准确性。(arXiv)
机器人应用:
text
第一帧点击 / 框选目标
↓
SAM2 传播目标 mask
↓
多帧跟踪目标
↓
结合位姿估计和运动预测
↓
用于动态避障、跟随、抓取移动目标
Seg2Track-SAM2 这类方法进一步把检测器与 SAM2 结合,用于零样本多目标跟踪与分割,并强调 detector-agnostic 和无需数据集特定微调。(arXiv)
优势:
- 支持动态场景中的目标持续分割;
- 适合移动机器人、无人车、无人机和机械臂视觉伺服;
- 可用于遮挡恢复、目标重识别和时序一致性维护。
8. 导航避障与可通行区域理解
在移动机器人中,SAM 可用于分割障碍物、地面、门、台阶、家具、行人等区域。虽然 SAM 不直接判断"能不能走",但它可以提供细粒度区域边界,后续再由深度、几何规则或 VLM 判断语义和可通行性。
应用流程:
text
RGB / RGB-D 图像
↓
SAM 分割场景区域
↓
深度估计 / 点云融合
↓
判断地面、障碍物、可通行空间
↓
生成局部代价地图
↓
路径规划
优势:
- 对未知障碍物泛化更强;
- 能提供比检测框更精细的边界;
- 可辅助构建局部 cost map;
- 适合室内服务机器人、仓储 AGV、野外移动机器人。
9. 异常检测、变化检测与安全感知
机器人长期运行时,需要识别环境变化,例如新增障碍物、移位物体、掉落物、损坏区域等。SAM 可用于生成当前场景的实例级区域,再与历史地图或历史 mask 对比。
应用方式:
text
历史语义地图 / 历史图像
↓
当前图像经 SAM 分割
↓
mask 级匹配与差异比较
↓
发现新增、消失、移动或异常物体
适用场景:
- 巡检机器人;
- 安防机器人;
- 仓储盘点;
- 工业异常检测;
- 家庭环境变化感知。
优势:
- 不要求预先定义所有异常类别;
- 能发现"未知但显著"的变化区域;
- 与深度/位姿融合后可定位异常位置。
10. 机器人数据标注与自监督数据闭环
SAM 还可以作为机器人数据引擎的一部分,用于自动生成 mask、辅助人工标注、构建任务数据集。SAM 原始工作本身就采用了模型辅助的数据收集循环来构建大规模分割数据集。(arXiv)
机器人数据闭环:
text
机器人采集真实场景数据
↓
SAM 自动生成候选 mask
↓
人类或 VLM 筛选 / 命名 / 修正
↓
生成机器人任务数据集
↓
微调检测、抓取、导航或操作模型
优势:
- 降低机器人数据标注成本;
- 快速适配新环境;
- 可形成持续学习闭环;
- 适合小样本场景和长尾物体。
总体融合框架
可以把 SAM 在机器人融合感知中的作用概括为:
text
多模态输入:
RGB / RGB-D / 点云 / 语言指令 / 机器人位姿
↓
提示生成:
点、框、文本检测框、运动区域、深度显著区域、历史目标
↓
SAM / SAM2:
生成高质量 2D mask 或视频 mask
↓
空间融合:
mask + depth / LiDAR / SLAM 位姿 → 3D 实例
↓
语义融合:
CLIP / VLM / 检测器 → 类别、属性、功能、关系
↓
任务输出:
抓取、导航、避障、跟踪、建图、位姿估计、异常检测
应用总结表
| 泛化应用方向 | SAM 提供的能力 | 融合模块 | 机器人输出 |
|---|---|---|---|
| 开放世界目标分割 | 类别无关 mask | RGB / 检测器 | 未知物体实例 |
| 文本驱动感知 | 精细分割 | Grounding DINO / VLM / CLIP | "语言目标"对应区域 |
| 3D 实例分割 | 2D mask | 深度 / 点云 / 相机内参 | 3D 物体点云 |
| 6D 位姿估计 | 候选实例区域 | RGB-D / CAD / 点云匹配 | 物体位置和姿态 |
| 抓取检测 | 目标隔离 | 抓取网络 / 力控 / 深度 | 抓取点和抓取姿态 |
| 语义 SLAM | 实例级区域 | SLAM / VLM / 点云 | 对象级语义地图 |
| 动态跟踪 | 视频 mask 传播 | SAM2 / 跟踪器 / 运动模型 | 多帧目标轨迹 |
| 导航避障 | 障碍区域边界 | 深度 / 代价地图 | 可通行区域 |
| 异常检测 | mask 级变化区域 | 历史地图 / 时序比较 | 异常物体或变化区域 |
| 数据标注 | 自动 mask 生成 | 人工校正 / VLM 命名 | 机器人训练数据集 |
总结
在机器人融合感知中,SAM 的泛化应用本质上是:把开放环境中的未知视觉区域先以高质量 mask 的形式"切出来",再通过深度、点云、SLAM、VLM、CLIP、检测器和控制模块赋予三维位置、语义类别、任务属性和动作意义。
因此,SAM 更适合作为机器人感知系统中的 通用分割基础模块,而不是单独承担完整的语义理解或运动决策。