下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。
推荐模型 /框架
-
RSPrompter (基于 SAM)
-
这是一个专门为遥感 (RS) 图像做 instance segmentation 的方法,基于 Segment Anything Model (SAM) + prompt learning。通过学习生成 prompt,让 SAM 能自动生成语义明确 (建筑、车辆等类别) 的实例掩膜。 (ar5iv)
-
代码 /接口 :PyTorch 实现,基于 MMDetection。GitHub 地址:KyanChen/RSPrompter (GitHub)
-
优点:
- 使用基础大模型 (SAM),泛化能力强;
- 可以少量标注 + prompt 学习,实现遥感上比较精准的语义分割;
-
局限:
- 仍然依赖 prompt learning,需要训练 prompt 生成器;
- 对非常高分辨率图像可能需要切图 (tile) 处理。
-
-
Text2Seg
-
LOANet
-
SAM + 自定义 prompt / adapter
- 可以考虑直接使用 Segment Anything Model (SAM) ,然后通过 adapter / 微调 或 prompt 来让它适配遥感地物 (建筑、车辆等)。
- 有一些近期工作 /开源项目在做这个方向:例如针对遥感图像微调 SAM (adapter-based) 或 prompt-based 的方法。综述里提到很多 SAM 在遥感上的应用。 (GitHub)
- 优点:非常灵活,可用 SAM 的强大基础能力;
- 局限:需要自己做 prompt 设计或 adapter 训练。
推荐方案 (具体落地建议)
- 如果你 有 GPU /资源 ,建议用 RSPrompter:加载原始 SAM + 加 prompt module,训练或微调后就能自动给出实例掩膜 (建筑 +车辆)。
- 如果资源较少或想快速做原型:可以尝试 Text2Seg,通过文本 prompt "building", "car"等让模型 output 掩膜。
- 如果主要任务是建筑 +道路 (不太关心车辆):LOANet 是不错轻量方案。
- 如果你愿意自己调试 /扩展:可以直接用 SAM + 自己设计 prompt 或训练 adapter,实现你自己的地物类别掩膜。
如果你愿意,我可以帮你 找几个开箱即用 (pretrained) 的遥感分割 API /服务(比如 Hugging Face 上、或者有模型托管、在线推理服务),这样你可以直接调用线上模型生成掩膜。要我查吗?
很好的问题。下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。
很好的问题!这个方向其实是 遥感 / 高分影像 中非常活跃的研究:把建筑物、车辆等规则形状地物分割出来,并进行填充 / 提取。以下是一些推荐的大模型 /方法,以及它们各自的优缺点。
推荐模型(大模型 /深度学习模型)
-
Mask2Former(Transformer + 掩码分类)
- Mask2Former 是一个统一的框架,支持语义分割、实例分割 (instance) 和全景分割 (panoptic) 。 (Mask2Former)
- 在遥感 (remote sensing) 图像中有专门改进版本:例如 "Mask2Former with Improved Query" 针对遥感场景 (建筑、车辆、地面等) 进行了 query 机制优化。 (MDPI)
- 对大尺度、高分辨率卫星图像很适合,因为 Transformer 能更好建模全局上下文。并且有研究使用 Swin-Transformer + Mask2Former 来提取建筑轮廓。 (nchr.elsevierpure.com)
-
HiT (Hierarchical Transformers for Building Mapping)
- 这是一篇专门用于建筑 "映射 (mapping)" / 矢量化 (polygon) 的论文。HiT 使用两阶段结构 (检测 + 多边形头),可以输出建筑的边界多边形。 (arXiv)
- 优点是输出的是矢量形状 (polygon),更符合 GIS /地图系统对规则地物 (如建筑) 的需求。
-
MBR-HRNet (Multi-Scale Boundary-Refined HRNet)
- 针对建筑物分割 (building segmentation) 提出。该模型增设了边界精炼模块 (Boundary Refinement Module, BRM),提升对小建筑及边缘建筑轮廓的分割准确性。 (MDPI)
- HRNet 的多尺度特征融合 +边界学习,对规则几何 (rectangular 建筑等) 很有用。
-
UNetFormer
- 这是一个 "U-Net + Transformer" 结构 (UNet-like Transformer),专门用于城市遥感语义分割 (urban scene segmentation)。 (arXiv)
- 比纯 Transformer 更轻量,同时保留 Transformer 对全局上下文 (global) 的建模能力。
-
STransU2Net
- 一个混合模型 (Transformer + CNN),用于卫星影像中的建筑分割。Transformer 部分负责全局语义,CNN 部分负责捕捉细节 (例如较小建筑) 。 (PubMed)
- 这种混合结构很适合 "规则但尺寸不一 (大小差异)" 的地物 (建筑可能大也可能小)。
-
Efficient Transformer for Remote Sensing
- 针对遥感图像设计了轻量 Transformer,用来减少计算量 (复杂度) 并改进边界分割 (edge) 。 (MDPI)
- 如果你对算力 /实时性有要求 (或部署环境有限),这个模型是不错的折衷。
如何选择 /落地建议
-
任务类型 :首先要明确你是做 语义分割 (semantic) 还是 实例分割 (instance) ,还是 多边形 (polygon) 提取。
- 如果只是分类 +填充 (比如 "这是建筑 /这是车辆 /这是道路"),语义分割模型 (如 UNetFormer, Efficient Transformer) 就可能够。
- 如果你要把每个建筑物作为单独对象 (可以统计数量、提边界),实例分割 (Mask2Former) 或矢量化 (HiT) 更合适。
-
边界精度 :如果对建筑轮廓 (尤其是直角、规则矩形) 要求很高 (比如用于地图制图),推荐 MBR-HRNet 或 HiT。
-
算力与推理速度:
- 对算力要求高 (GPU 性能有限) 的,选择轻量或高效 Transformer (如 Efficient Transformer);
- 不急实时性但要高精度的,可以用更大型/复杂模型。
-
数据:你的输入是什么类型图像 (分辨率、光谱通道)?
- 如果是非常高分辨率 (VHR) 卫星图像,Transformer 模型 (Swin 等) 很有优势。
- 如果是较普通分辨率数据,也可以考虑经典 U-Net 或混合模型。
-
训练 &标注:这些模型训练时可能需要较大标注数据 (像素级掩码)。如果数据少,可以考虑迁移学习 (用已有模型微调)。
如果你愿意,我可以帮你列 截至目前 (2024-2025 年) 性能最强 (或社区最好用) 的 3-5 个模型 专门用于遥感建模 (建筑 +车辆 +道路)。要我做吗?