遥感图像分割:五大开源模型推荐

下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。


https://chatgpt.com/c/69240fa1-a7e0-8320-9bf1-e09b83d5e7ce

推荐模型 /框架

  1. RSPrompter (基于 SAM)

    • 这是一个专门为遥感 (RS) 图像做 instance segmentation 的方法,基于 Segment Anything Model (SAM) + prompt learning。通过学习生成 prompt,让 SAM 能自动生成语义明确 (建筑、车辆等类别) 的实例掩膜。 (ar5iv)

    • 代码 /接口 :PyTorch 实现,基于 MMDetection。GitHub 地址:KyanChen/RSPrompter (GitHub)

    • 优点

      • 使用基础大模型 (SAM),泛化能力强;
      • 可以少量标注 + prompt 学习,实现遥感上比较精准的语义分割;
    • 局限

      • 仍然依赖 prompt learning,需要训练 prompt 生成器;
      • 对非常高分辨率图像可能需要切图 (tile) 处理。
  2. Text2Seg

    • 这是一个 文本引导 (text-guided) 的遥感图像语义分割方法。使用视觉 foundation model +文本提示,进行 zero-shot (或少量标注) 语义分割。 (arXiv)

    • 代码 /接口 :GitHub 开源 (链接在论文中) (arXiv)

    • 优点

      • 无需大量像素级标注 (利用文本提示);
      • 可用于语义类别 (比如 "building", "vehicle" 等);
    • 局限

      • 对 prompt (文本) 的设计敏感;
      • 预测精度可能比专门训练模型低 (视具体数据集而定)。
  3. LOANet

    • 一个轻量级网络,用于从无人机 (UAV) 遥感图像中提取 建筑 (buildings)道路 (roads) 。 (arXiv)

    • 代码 :GitHub 可用 (LOANet) (arXiv)

    • 优点

      • 模型非常轻量 (参数少),适合资源有限场景;
      • 对建筑 /道路这种物体分割效果不错;
    • 局限

      • 主要是语义分割 (不是 instance segmentation);
      • 可能需要对车辆等类别做扩展 (如果 LOANet 本身没训练车辆类别)。
  4. SAM + 自定义 prompt / adapter

    • 可以考虑直接使用 Segment Anything Model (SAM) ,然后通过 adapter / 微调 或 prompt 来让它适配遥感地物 (建筑、车辆等)。
    • 有一些近期工作 /开源项目在做这个方向:例如针对遥感图像微调 SAM (adapter-based) 或 prompt-based 的方法。综述里提到很多 SAM 在遥感上的应用。 (GitHub)
    • 优点:非常灵活,可用 SAM 的强大基础能力;
    • 局限:需要自己做 prompt 设计或 adapter 训练。

推荐方案 (具体落地建议)

  • 如果你 有 GPU /资源 ,建议用 RSPrompter:加载原始 SAM + 加 prompt module,训练或微调后就能自动给出实例掩膜 (建筑 +车辆)。
  • 如果资源较少或想快速做原型:可以尝试 Text2Seg,通过文本 prompt "building", "car"等让模型 output 掩膜。
  • 如果主要任务是建筑 +道路 (不太关心车辆):LOANet 是不错轻量方案。
  • 如果你愿意自己调试 /扩展:可以直接用 SAM + 自己设计 prompt 或训练 adapter,实现你自己的地物类别掩膜。

如果你愿意,我可以帮你 找几个开箱即用 (pretrained) 的遥感分割 API /服务(比如 Hugging Face 上、或者有模型托管、在线推理服务),这样你可以直接调用线上模型生成掩膜。要我查吗?


很好的问题。下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。


很好的问题!这个方向其实是 遥感 / 高分影像 中非常活跃的研究:把建筑物、车辆等规则形状地物分割出来,并进行填充 / 提取。以下是一些推荐的大模型 /方法,以及它们各自的优缺点。


推荐模型(大模型 /深度学习模型)

  1. Mask2Former(Transformer + 掩码分类)

    • Mask2Former 是一个统一的框架,支持语义分割、实例分割 (instance) 和全景分割 (panoptic) 。 (Mask2Former)
    • 在遥感 (remote sensing) 图像中有专门改进版本:例如 "Mask2Former with Improved Query" 针对遥感场景 (建筑、车辆、地面等) 进行了 query 机制优化。 (MDPI)
    • 对大尺度、高分辨率卫星图像很适合,因为 Transformer 能更好建模全局上下文。并且有研究使用 Swin-Transformer + Mask2Former 来提取建筑轮廓。 (nchr.elsevierpure.com)
  2. HiT (Hierarchical Transformers for Building Mapping)

    • 这是一篇专门用于建筑 "映射 (mapping)" / 矢量化 (polygon) 的论文。HiT 使用两阶段结构 (检测 + 多边形头),可以输出建筑的边界多边形。 (arXiv)
    • 优点是输出的是矢量形状 (polygon),更符合 GIS /地图系统对规则地物 (如建筑) 的需求。
  3. MBR-HRNet (Multi-Scale Boundary-Refined HRNet)

    • 针对建筑物分割 (building segmentation) 提出。该模型增设了边界精炼模块 (Boundary Refinement Module, BRM),提升对小建筑及边缘建筑轮廓的分割准确性。 (MDPI)
    • HRNet 的多尺度特征融合 +边界学习,对规则几何 (rectangular 建筑等) 很有用。
  4. UNetFormer

    • 这是一个 "U-Net + Transformer" 结构 (UNet-like Transformer),专门用于城市遥感语义分割 (urban scene segmentation)。 (arXiv)
    • 比纯 Transformer 更轻量,同时保留 Transformer 对全局上下文 (global) 的建模能力。
  5. STransU2Net

    • 一个混合模型 (Transformer + CNN),用于卫星影像中的建筑分割。Transformer 部分负责全局语义,CNN 部分负责捕捉细节 (例如较小建筑) 。 (PubMed)
    • 这种混合结构很适合 "规则但尺寸不一 (大小差异)" 的地物 (建筑可能大也可能小)。
  6. Efficient Transformer for Remote Sensing

    • 针对遥感图像设计了轻量 Transformer,用来减少计算量 (复杂度) 并改进边界分割 (edge) 。 (MDPI)
    • 如果你对算力 /实时性有要求 (或部署环境有限),这个模型是不错的折衷。

如何选择 /落地建议

  • 任务类型 :首先要明确你是做 语义分割 (semantic) 还是 实例分割 (instance) ,还是 多边形 (polygon) 提取

    • 如果只是分类 +填充 (比如 "这是建筑 /这是车辆 /这是道路"),语义分割模型 (如 UNetFormer, Efficient Transformer) 就可能够。
    • 如果你要把每个建筑物作为单独对象 (可以统计数量、提边界),实例分割 (Mask2Former) 或矢量化 (HiT) 更合适。
  • 边界精度 :如果对建筑轮廓 (尤其是直角、规则矩形) 要求很高 (比如用于地图制图),推荐 MBR-HRNetHiT

  • 算力与推理速度

    • 对算力要求高 (GPU 性能有限) 的,选择轻量或高效 Transformer (如 Efficient Transformer);
    • 不急实时性但要高精度的,可以用更大型/复杂模型。
  • 数据:你的输入是什么类型图像 (分辨率、光谱通道)?

    • 如果是非常高分辨率 (VHR) 卫星图像,Transformer 模型 (Swin 等) 很有优势。
    • 如果是较普通分辨率数据,也可以考虑经典 U-Net 或混合模型。
  • 训练 &标注:这些模型训练时可能需要较大标注数据 (像素级掩码)。如果数据少,可以考虑迁移学习 (用已有模型微调)。


如果你愿意,我可以帮你列 截至目前 (2024-2025 年) 性能最强 (或社区最好用) 的 3-5 个模型 专门用于遥感建模 (建筑 +车辆 +道路)。要我做吗?

相关推荐
坚果派·白晓明5 小时前
通过开源鸿蒙终端工具Termony完成Busybox 命令行工具构建过程深度解读
开源·openharmony·开源鸿蒙
答案answer6 小时前
一些经典的3D编辑器开源项目
前端·开源·three.js
b***46246 小时前
IoT DC3 是一个基于 Spring Cloud 的开源的、分布式的物联网(IoT)平台本地部署步骤
物联网·spring cloud·开源
5***r9357 小时前
开源数据同步中间件(Dbsyncer)简单玩一下 mysql to mysql 的增量,全量配置
mysql·中间件·开源
纵有疾風起21 小时前
C++——多态
开发语言·c++·经验分享·面试·开源
炸裂狸花猫1 天前
开源域名证书工具 - cert-manager
云原生·容器·kubernetes·开源·cert-manager
fundroid1 天前
Androidify:谷歌官方 AI + Android 开源示例应用
android·人工智能·开源
坚果派·白晓明1 天前
常用URL语法传输数据开源命令行工具curl鸿蒙化构建过程深度解析
开源·openharmony·开源鸿蒙·开源软件termony