arXiv|SARLANG-1M：用于 SAR 图像理解的视觉-语言建模基准

文章目录

一、论文信息
二、论文摘要
三、论文创新点
四、论文动机
五、方法
- 1.数据集描述
- 2.数据集构建
- - [2.1 对SAR图像进行预处理：](#2.1 对SAR图像进行预处理：)
  - - [1. 单通道极化选择：统一图像格式](#1. 单通道极化选择：统一图像格式)
    - [2. 去噪处理：消除斑点噪声](#2. 去噪处理：消除斑点噪声)
    - [3. 对比度拉伸：突出关键目标](#3. 对比度拉伸：突出关键目标)
  - [2.2 文本标注生成](#2.2 文本标注生成)
  - [2.3 . 质量控制](#2.3 . 质量控制)
六、实验分析
- [6.1 实验指标：](#6.1 实验指标：)
- [6.2 实验结果](#6.2 实验结果)
- - [6.2.1 SAR图像描述任务](#6.2.1 SAR图像描述任务)
  - [6.2.2 SAR图像VQA任务](#6.2.2 SAR图像VQA任务)
  - [6.2.3 SAR图像预处理实验](#6.2.3 SAR图像预处理实验)
七.结论
八.个人声明

一、论文信息

题目：SARLANG-1M: A Benchmark for Vision-Language Modeling in
SAR Image Understanding
作者：Yimin Weia, Aoran Xiao, Yexian Ren, Yuting Zhu, Hongruixuan Chen, Junshi Xiab and Naoto Yokoya∗
单位:The University of Tokyo;RIKEN Center for Advanced Intelligence Project (AIP);Nanjing University of Information Science and Technology;Sun Yat-sen University
期刊:arXiv
代码链接:https://github.com/Jimmyxichen/SARLANG-1M?tab=readme-ov-file

二、论文摘要

合成孔径雷达（SAR）是一项关键的遥感技术，具备强地表穿透能力，可实现全天候、全天时观测，能用于精准且持续的环境监测与分析。然而，由于SAR复杂的物理成像机制，以及其视觉表现与人类感知存在显著差异，SAR图像解译仍面临诸多挑战。近年来，视觉语言模型（VLMs）在RGB图像理解领域取得了显著成效，可提供强大的开放词汇解译能力与灵活的语言交互功能。但由于其训练数据分布中缺乏SAR专属知识，这些模型在SAR图像上的应用受到严重限制，导致性能欠佳。

为解决这一局限，我们提出了SARLANG-1M------一个专为SAR图像多模态理解设计的大规模基准数据集 ，其核心目标是实现SAR与文本模态的融合。SARLANG-1M包含从全球59多个城市收集的100多万对高质量SAR图像-文本对，具备以下特点：层级化分辨率（范围为0.1至25米） 、细粒度语义描述（包括简洁型和详细型两种描述文本） 、丰富的遥感类别（1696种物体类型和16种土地覆盖类型），以及涵盖7类应用场景、1012种问题类型的多任务问答对。

针对主流视觉语言模型（VLMs）的大量实验表明，使用SARLANG-1M进行微调后，这些模型在SAR图像解译任务中的性能显著提升，达到与人类专家相当的水平。该数据集及相关代码将在以下链接公开：https://github.com/Jimmyxichen/SARLANG-1M。

三、论文创新点

全面的大规模数据集：SARLANG1M包含118,331张多分辨率合成孔径雷达（SAR）图像 ，提供了1,080,627个高质量的图文对以及来自全球59多个城市的45,650条详细描述 。该数据集涵盖0.1至25米的多尺度分辨率，包含细粒度的语义描述（既有简洁描述也有详细描述）、多样的遥感类别（1,696个对象类别和16种土地覆盖类型），以及涉及1,012种问题类型的多任务问答对。
视觉-语言任务基准：SARLANG-1M基准包含两个关键组成部分：用于图像captioning任务的SARLANG-1M-Cap 和用于VQA任务的SARLANG1M-VQA 。作为迄今为止最大的合成孔径雷达（SAR）图像-文本数据集，它支持七个关键的遥感应用，包括图像描述、目标识别、目标分类、实例计数、区域指代和目标定位。
广泛的模型评估与改进：我们使用SARLANG-1M进行了全面的性能评估，对两个最先进的传统模型和十个视觉语言模型（VLMs）进行了评估 。实验结果表明在SARLANG-1M上对主流视觉语言模型进行微调，能显著提升它们在特定于合成孔径雷达的视觉语言任务上的性能，取得的结果可与人类专家媲美。

四、论文动机

合成孔径雷达（SAR）是关键遥感技术但解译难度高 ，主流视觉语言模型（VLMs）虽在RGB图像理解中表现优异 ，却因缺乏SAR领域训练知识难以适配SAR图像。
现有SAR数据集规模小、无高质量文本标注，无法支撑VLMs训练需求，因此需构建新的数据集以填补这一空白。

五、方法

1.数据集描述

核心任务是：SAR 图像描述（SARLANG-1M-Cap） ；SAR 图像视觉问答（SARLANG-1M-VQA）
VQA的主要问题是：
物体识别 ：判断 SAR 图像中是否存在特定类别物体（如船舶、桥梁、机场等），或特定位置是否有目标物体，输出 "是 / 否"（Yes/No）类型答案。
物体分类 ：识别 SAR 图像中主要可见的物体类别，或指定场景下的核心物体类型，输出具体类别名称（如 "飞机""港口""坦克" 等）。
实例计数 ：针对指定物体类别，量化其在 SAR 图像中的出现数量，输出具体数字（如 "2""4" 等）。
区域指向 ：给定 SAR 图像中具体坐标范围（如 [56.0, 191.0, 112.0, 122.0]），判断该局部区域内的物体类别，输出对应类别名称。
物体定位 ：确定特定物体类别在 SAR 图像中的大致方位，输出 "左 / 右 / 上 / 下 / 中心" 等方位描述。
通用查询 ：涵盖 SAR 遥感领域的其他常见推理任务，包括物体形状判断、方向识别、土地覆盖分类、空间格局分析、逻辑推理等，输出适配具体问题的描述性答案（如 "矩形""网格状""城市用地" 等）。
SARLANG-1M包含了高质量的文本描述，先前的SAR数据集都没有。
衡量数据集的整体相似度，分为图像的和文本的，分别在RGB和SAR的数据集进行对比。

2.数据集构建

SARLANG-1M数据中的SAR图像没有额外获取新的图像，是对原有的四个公开数据集的SAR图像进行了处理。

2.1 对SAR图像进行预处理：

论文中预处理操作分两种情况，核心是"是否已完成基础处理"：

针对SARDet-100k数据集：无需额外预处理，直接复用原始数据（该数据集已自带去噪、裁剪为512×512像素块的操作）。
针对SpaceNet6、DFC2023、OpenEarthMap-SAR数据集：需执行"三步骤标准化处理"，解决这类数据的低对比度、高噪声问题。

1. 单通道极化选择：统一图像格式

操作：从SAR图像的多极化（HH、VV、HV、VH）中选择一个波段作为单通道图像。
目的：避免多极化数据的冗余和格式混乱，降低VLM处理难度，保证数据集一致性。
细节：单极化数据选HH/VV（同极化），因这类极化信号强、目标轮廓清晰，适配论文中"人造目标识别"的核心任务。

极化方式	极化类型	核心特点	信号强度	典型应用场景
HH	同极化（发射=接收方向）	相干性好、稳定性高，受地表粗糙度影响小，物体结构轮廓清晰	强	人造目标识别（桥梁、港口、坦克、飞机）、裸地边界提取、水面轮廓监测
VV	同极化（发射=接收方向）	穿透性略优，对大面积均匀场景的一致性表现好	强	海洋波浪观测、冰层监测、城市密集区结构分析、农田边界识别
HV	交叉极化（发射≠接收方向）	对物体粗糙度、湿度、介电特性敏感，不同地物区分度高	弱	植被类型区分（森林vs农田）、土壤湿度反演、植被覆盖下目标探测
VH	交叉极化（发射≠接收方向）	与HV原理一致，对地表细微差异敏感，抗干扰性略优于HV	弱	隐蔽目标探测、湿地分类、农作物长势监测

2. 去噪处理：消除斑点噪声

操作：采用精炼Lee滤波（Refined Lee Filter） 对单通道图像去噪。
目的：SAR图像天生存在"乘性斑点噪声"（类似图像上的颗粒感），会模糊目标轮廓，去噪后能提升图像清晰度。
原理：精炼Lee滤波是SAR领域专用去噪方法，能在保留目标边缘细节的同时，抑制噪声干扰（比普通滤波更适配SAR图像特性）。

3. 对比度拉伸：突出关键目标

操作：先对图像做对数变换 ，再执行线性拉伸。
目的：解决SAR图像"整体偏暗、目标与背景对比度低"的问题，让桥梁、港口、飞机等关键目标更突出，便于VLM识别。
原理：对数变换能压缩图像的亮度动态范围，线性拉伸则将图像灰度值映射到更合理的区间，增强目标与背景的差异。

2.2 文本标注生成

针对 SARLANG-1M-Cap 基准，我们采用模态迁移法 ：先为配对的 RGB 图像生成文本描述 ，再将其与对应的 SAR 图像对齐 。由于配对的 RGB 图像与 SAR 图像描绘的是相同内容，这种方法能够实现语义信息从技术成熟的 RGB 领域向 SAR 领域的迁移。
- 具体而言，为生成丰富、高质量的描述文本，我们借助三种具有代表性的视觉语言模型（VLMs），基于配对的 RGB-SAR 图像开展工作：
  - BLIP：以 ViT-Large/16为骨干网络，在 1400 万张图像上完成预训练，训练数据包括 COCO、Visual Genome等两个人工标注数据集，以及 Conceptual Captions、Conceptual 12M、SBU Captions等三个网络规模数据集。
  - CLIP：先在大规模 LAION-2B 数据集上预训练，再在 MSCOCO数据集上微调，非常适用于开放域视觉语言理解任务。
  - GPT-4o：一款最先进的多模态模型，凭借其先进的语言建模能力，能够生成贴合上下文且细节丰富的图像描述。
针对 SARLANG-1M-VQA 基准（该任务聚焦细粒度 SAR 图像理解，核心包含目标定位与指代等任务），我们直接基于现有 SAR 数据集中的边界框标注生成文本描述。这一过程构建了全新的文本语料库，专门作为 SAR 视觉问答任务的标注资源。
- 具体而言，为生成高质量的文本标注（需对 SAR 图像中可见物体进行精准量化和坐标标定），我们构建了全新的文本语料库，定义了五种主要的问题模板及对应的答案形式：
  - 物体识别（Object Identification）：旨在判断图像中是否存在 "船舶""坦克""飞机""桥梁""汽车""港口" 等特定物体，答案为 "是 / 否"（Yes/No）。（看边界框标注是否有这类）
  - 物体分类（Object Classification）：旨在识别 SAR 图像中占主导地位的物体类别，答案从 "船舶""坦克""飞机""桥梁""汽车""港口" 这一集合中选取。（看边界框标注的类别）
  - 实例计数（Instance Counting）：旨在统计 SAR 图像中特定类别的物体数量，答案为具体数字。（看边界框标注类别相同的不同边框数量）
  - 物体定位（Object Positioning）：旨在确定某一类物体的大致位置，答案为 "左""右""上""下""中心" 中的一种。（看指定类别的边界框标注相较于图片的位置）
  - 区域指向（Region Referring）：旨在识别指定区域内的物体类别，答案从 "船舶""坦克""飞机""桥梁""汽车""港口" 这六个潜在类别中选取。（看在指定范围内的边界框标注框的类别）
- 为进一步丰富问答模式，并突破 SAR 目标检测数据集中物体类别的限制、拓展遥感类别范围，我们采用了类似的模态迁移法生成视觉问答标注 。向 GPT-4o模型输入多种提示词，生成了大量多样化的问答对，提升了文本的解读深度 。除了丰富语料库中五种已定义问题类型的文本标注外，其余视觉问答标签构成了 "通用查询" 类问题。这类问题涵盖了土地覆盖分类、推理判断、物体形状预测等新型遥感应用场景。

2.3 . 质量控制

尽管自动化文本生成流程为 SAR 图像标注提供了可扩展的解决方案，但仍存在局限性：一方面，SAR 图像本身不包含颜色信息，若直接沿用从配对 RGB 图像中生成的含颜色属性描述，会导致标注与 SAR 图像不匹配 ；另一方面，当前视觉语言模型对遥感 RGB 图像的理解能力有限，生成的文本标注并非完全准确，将其迁移至 SAR 图像时可能出现错误。

为确保 SARLANG-1M 数据集中文本标注的高质量，我们由领域专家开展了严格的人工审核与筛选工作，识别并修正不准确、不一致或不相关的描述。

六、实验分析

6.1 实验指标：

实验中采用的指标均为视觉语言领域的标准化指标，且针对SAR多模态场景做了适配，核心分为SAR图像描述任务指标 和SAR图像VQA任务指标两类，共4个关键指标，详细拆解如下：

SAR图像描述任务指标（3个）

核心作用：衡量模型生成的SAR图像描述文本（简洁/复杂caption）与真实标签的匹配度、连贯性和语义准确性，分数越高表示生成文本质量越好。
- BLEU（Bilingual Evaluation Understudy）
  - 核心定义 ：基于"n-gram精确率"的评估指标，聚焦生成文本与真实标签的词汇重叠度。
  - 计算逻辑 ：
    - n-gram指连续的n个单词（论文中明确采用1-gram至4-gram，即单个词、双词、三词、四词组合）。
    - 统计生成文本中与真实标签匹配的n-gram数量，除以生成文本的总n-gram数量，得到精确率；最终分数为1-4 gram精确率的加权平均值。
  - 分数解读：取值范围0-100（论文中以百分比形式呈现），分数越高，说明生成文本的词汇与真实标签的重叠度越高，描述越贴合图像内容。
  - 论文应用：用于对比不同模型（VLMs+传统模型）生成的简洁/复杂描述与真实标签的词汇匹配度，例如QWEN2-VL-7B微调后复杂描述的BLEU_1达35.78，体现词汇层面的精准性。
- ROUGE_L（Recall-Oriented Understudy for Gisting Evaluation-L）
  - 核心定义 ：基于"最长公共子序列（LCS）"的评估指标，聚焦生成文本与真实标签的结构连贯性和语义关联性（而非单纯词汇重叠）。
  - 计算逻辑 ：
    - 最长公共子序列指两个文本中不连续但顺序一致的最长单词序列（例如"工业设施储罐"是"工业港口的圆形储罐"与"工业设施含多个储罐"的LCS）。
    - 分数由LCS长度与真实标签长度的比值（召回率）和与生成文本长度的比值（精确率）调和得到。
  - 分数解读：取值范围0-100，分数越高，说明生成文本的语义结构、逻辑顺序与真实标签越一致，连贯性越强。
  - 论文应用：弥补BLEU仅关注词汇重叠的不足，例如HCNet模型简洁描述的ROUGE_L达60.78，说明其生成文本的结构与真实标签高度契合。
- CIDEr（Consensus-Based Image Description Evaluation）
  - 核心定义 ：基于"共识"的评估指标，更贴合人类对描述质量的判断，聚焦生成文本是否捕捉到真实标签中的核心语义关键词。
  - 计算逻辑 ：
    - 统计多个真实标签中高频出现的关键词（如SAR图像中的"储罐""港口""桥梁"），并赋予这些关键词更高权重。
    - 计算生成文本中这些高权重关键词的出现频率与真实标签的匹配度，最终得到分数。
  - 分数解读：取值范围0-∞（论文中数值越大越好），分数越高，说明生成文本越精准地捕捉了SAR图像的核心语义（如关键物体、场景类型），质量越优。
  - 论文应用：是描述任务的核心指标之一，论文中提到微调后CIDEr提升67.20%，直接证明模型生成描述的核心语义精准度大幅提升。
SAR图像VQA任务指标（1个）

核心作用：衡量模型基于SAR图像回答问题的准确性，解决传统准确率"字面匹配"的局限，适配SAR领域语义理解需求。
- GPT-4基于的总体准确率（Overall Accuracy）
  - 核心定义：利用GPT-4的语义理解能力，判断模型预测答案与真实标签的"语义匹配度"，而非字面完全一致，是更严谨的VQA评估指标。
  - 计算逻辑 ：
    1. 输入Prompt：明确要求GPT-4基于"语义含义"判断，同义词（如"椭圆形"与"圆形"）、同义表达（如"池塘"与"游泳池"）均视为匹配。
    2. 统计结果：对所有测试集问题，GPT-4判断"匹配"记1分，"不匹配"记0分，总体准确率=匹配次数÷总问题数×100%。
  - 分数解读：取值范围0-100，分数越高，说明模型对SAR图像的细节推理、语义理解能力越强，VQA性能越优。
  - 论文应用：是VQA任务的唯一评估指标，论文中微调后模型准确率最高达73.33%（超过SAR专家的57.76%），直接证明模型的SAR问答能力达到专家级水平。

指标	核心优势	适配场景
BLEU	词汇层面匹配度，计算高效	快速对比文本表层一致性
ROUGE_L	语义结构连贯性，贴近文本逻辑	评估描述的流畅性和逻辑性
CIDEr	核心语义精准度，契合人类判断	衡量描述的实用价值
GPT-4准确率	语义级匹配，避免字面误差	SAR VQA的复杂推理评估

6.2 实验结果

6.2.1 SAR图像描述任务

6.2.2 SAR图像VQA任务

6.2.3 SAR图像预处理实验

七.结论

该数据集设 SARLANG-1M-Cap（图像描述）与 SARLANG-1M-VQA（视觉问答）两大基准，支持图像描述、物体识别等七大核心遥感场景。实验证实，经其微调的 VLMs，SAR 图像理解性能显著提升至人类专家水平，而本文提出的 SAR 图像预处理策略也有效增强了 VLMs 的解译能力。

八.个人声明

本文旨在分享作者对原论文的学习理解与心得体会。受限于个人知识水平和认知能力，文中对原论文的解读可能仍有不够完善之处，具体内容以原论文为准。本文仅用于学术交流与知识传播，所有内容均由作者独立整理。

如文中引用的文字、图片或其他素材在版权或相关事宜上存在争议，欢迎及时联系作者，作者将第一时间予以回复并妥善处理。