遥感图像分割:五大开源模型推荐

下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。


https://chatgpt.com/c/69240fa1-a7e0-8320-9bf1-e09b83d5e7ce

推荐模型 /框架

  1. RSPrompter (基于 SAM)

    • 这是一个专门为遥感 (RS) 图像做 instance segmentation 的方法,基于 Segment Anything Model (SAM) + prompt learning。通过学习生成 prompt,让 SAM 能自动生成语义明确 (建筑、车辆等类别) 的实例掩膜。 (ar5iv)

    • 代码 /接口 :PyTorch 实现,基于 MMDetection。GitHub 地址:KyanChen/RSPrompter (GitHub)

    • 优点

      • 使用基础大模型 (SAM),泛化能力强;
      • 可以少量标注 + prompt 学习,实现遥感上比较精准的语义分割;
    • 局限

      • 仍然依赖 prompt learning,需要训练 prompt 生成器;
      • 对非常高分辨率图像可能需要切图 (tile) 处理。
  2. Text2Seg

    • 这是一个 文本引导 (text-guided) 的遥感图像语义分割方法。使用视觉 foundation model +文本提示,进行 zero-shot (或少量标注) 语义分割。 (arXiv)

    • 代码 /接口 :GitHub 开源 (链接在论文中) (arXiv)

    • 优点

      • 无需大量像素级标注 (利用文本提示);
      • 可用于语义类别 (比如 "building", "vehicle" 等);
    • 局限

      • 对 prompt (文本) 的设计敏感;
      • 预测精度可能比专门训练模型低 (视具体数据集而定)。
  3. LOANet

    • 一个轻量级网络,用于从无人机 (UAV) 遥感图像中提取 建筑 (buildings)道路 (roads) 。 (arXiv)

    • 代码 :GitHub 可用 (LOANet) (arXiv)

    • 优点

      • 模型非常轻量 (参数少),适合资源有限场景;
      • 对建筑 /道路这种物体分割效果不错;
    • 局限

      • 主要是语义分割 (不是 instance segmentation);
      • 可能需要对车辆等类别做扩展 (如果 LOANet 本身没训练车辆类别)。
  4. SAM + 自定义 prompt / adapter

    • 可以考虑直接使用 Segment Anything Model (SAM) ,然后通过 adapter / 微调 或 prompt 来让它适配遥感地物 (建筑、车辆等)。
    • 有一些近期工作 /开源项目在做这个方向:例如针对遥感图像微调 SAM (adapter-based) 或 prompt-based 的方法。综述里提到很多 SAM 在遥感上的应用。 (GitHub)
    • 优点:非常灵活,可用 SAM 的强大基础能力;
    • 局限:需要自己做 prompt 设计或 adapter 训练。

推荐方案 (具体落地建议)

  • 如果你 有 GPU /资源 ,建议用 RSPrompter:加载原始 SAM + 加 prompt module,训练或微调后就能自动给出实例掩膜 (建筑 +车辆)。
  • 如果资源较少或想快速做原型:可以尝试 Text2Seg,通过文本 prompt "building", "car"等让模型 output 掩膜。
  • 如果主要任务是建筑 +道路 (不太关心车辆):LOANet 是不错轻量方案。
  • 如果你愿意自己调试 /扩展:可以直接用 SAM + 自己设计 prompt 或训练 adapter,实现你自己的地物类别掩膜。

如果你愿意,我可以帮你 找几个开箱即用 (pretrained) 的遥感分割 API /服务(比如 Hugging Face 上、或者有模型托管、在线推理服务),这样你可以直接调用线上模型生成掩膜。要我查吗?


很好的问题。下面是几个 可直接调用或已有预训练 /开源的大模型 /框架 ,适合在遥感 (remote sensing) 图像中进行 建筑 (building)、车辆 (vehicle) 等地面物体分割 (mask) 的推荐,以及它们的优缺点和接口说明。


很好的问题!这个方向其实是 遥感 / 高分影像 中非常活跃的研究:把建筑物、车辆等规则形状地物分割出来,并进行填充 / 提取。以下是一些推荐的大模型 /方法,以及它们各自的优缺点。


推荐模型(大模型 /深度学习模型)

  1. Mask2Former(Transformer + 掩码分类)

    • Mask2Former 是一个统一的框架,支持语义分割、实例分割 (instance) 和全景分割 (panoptic) 。 (Mask2Former)
    • 在遥感 (remote sensing) 图像中有专门改进版本:例如 "Mask2Former with Improved Query" 针对遥感场景 (建筑、车辆、地面等) 进行了 query 机制优化。 (MDPI)
    • 对大尺度、高分辨率卫星图像很适合,因为 Transformer 能更好建模全局上下文。并且有研究使用 Swin-Transformer + Mask2Former 来提取建筑轮廓。 (nchr.elsevierpure.com)
  2. HiT (Hierarchical Transformers for Building Mapping)

    • 这是一篇专门用于建筑 "映射 (mapping)" / 矢量化 (polygon) 的论文。HiT 使用两阶段结构 (检测 + 多边形头),可以输出建筑的边界多边形。 (arXiv)
    • 优点是输出的是矢量形状 (polygon),更符合 GIS /地图系统对规则地物 (如建筑) 的需求。
  3. MBR-HRNet (Multi-Scale Boundary-Refined HRNet)

    • 针对建筑物分割 (building segmentation) 提出。该模型增设了边界精炼模块 (Boundary Refinement Module, BRM),提升对小建筑及边缘建筑轮廓的分割准确性。 (MDPI)
    • HRNet 的多尺度特征融合 +边界学习,对规则几何 (rectangular 建筑等) 很有用。
  4. UNetFormer

    • 这是一个 "U-Net + Transformer" 结构 (UNet-like Transformer),专门用于城市遥感语义分割 (urban scene segmentation)。 (arXiv)
    • 比纯 Transformer 更轻量,同时保留 Transformer 对全局上下文 (global) 的建模能力。
  5. STransU2Net

    • 一个混合模型 (Transformer + CNN),用于卫星影像中的建筑分割。Transformer 部分负责全局语义,CNN 部分负责捕捉细节 (例如较小建筑) 。 (PubMed)
    • 这种混合结构很适合 "规则但尺寸不一 (大小差异)" 的地物 (建筑可能大也可能小)。
  6. Efficient Transformer for Remote Sensing

    • 针对遥感图像设计了轻量 Transformer,用来减少计算量 (复杂度) 并改进边界分割 (edge) 。 (MDPI)
    • 如果你对算力 /实时性有要求 (或部署环境有限),这个模型是不错的折衷。

如何选择 /落地建议

  • 任务类型 :首先要明确你是做 语义分割 (semantic) 还是 实例分割 (instance) ,还是 多边形 (polygon) 提取

    • 如果只是分类 +填充 (比如 "这是建筑 /这是车辆 /这是道路"),语义分割模型 (如 UNetFormer, Efficient Transformer) 就可能够。
    • 如果你要把每个建筑物作为单独对象 (可以统计数量、提边界),实例分割 (Mask2Former) 或矢量化 (HiT) 更合适。
  • 边界精度 :如果对建筑轮廓 (尤其是直角、规则矩形) 要求很高 (比如用于地图制图),推荐 MBR-HRNetHiT

  • 算力与推理速度

    • 对算力要求高 (GPU 性能有限) 的,选择轻量或高效 Transformer (如 Efficient Transformer);
    • 不急实时性但要高精度的,可以用更大型/复杂模型。
  • 数据:你的输入是什么类型图像 (分辨率、光谱通道)?

    • 如果是非常高分辨率 (VHR) 卫星图像,Transformer 模型 (Swin 等) 很有优势。
    • 如果是较普通分辨率数据,也可以考虑经典 U-Net 或混合模型。
  • 训练 &标注:这些模型训练时可能需要较大标注数据 (像素级掩码)。如果数据少,可以考虑迁移学习 (用已有模型微调)。


如果你愿意,我可以帮你列 截至目前 (2024-2025 年) 性能最强 (或社区最好用) 的 3-5 个模型 专门用于遥感建模 (建筑 +车辆 +道路)。要我做吗?

相关推荐
小鸡吃米…3 小时前
Python - XML 处理
xml·开发语言·python·开源
FIT2CLOUD飞致云5 小时前
操作教程丨通过1Panel快速安装Zabbix,搭建企业级监控系统
运维·服务器·开源·zabbix·监控·1panel
代码小学僧6 小时前
从 Arco Table 迁移到 VTable:VTable使用经验分享
前端·react.js·开源
一个没有感情的程序猿7 小时前
前端实现人体骨架检测与姿态对比:基于 MediaPipe 的完整方案
机器学习·计算机视觉·前端框架·开源
UtopianCoding8 小时前
什么是NoteDiscovery?Obsidian 的开源平替?
python·docker·开源
CoderJia程序员甲10 小时前
GitHub 热榜项目 - 日榜(2025-12-18)
ai·开源·大模型·github·ai教程
FIT2CLOUD飞致云10 小时前
仪表板和数据大屏支持统一设置数值格式,DataEase开源BI工具v2.10.18 LTS版本发布
开源·数据可视化·dataease·bi·数据大屏
布茹 ei ai10 小时前
QtWeatherApp - 简单天气预报软件(C++ Qt6)(附源码)
开发语言·c++·qt·开源·开源项目·天气预报
tianyuanwo11 小时前
EPEL镜像源:开源生态中的桥梁与SBOM管理的实践
开源·sbom·epel
冷雨82811 小时前
arcgis平滑面的边缘
arcgis·gis