历史标签如何时间迁移?

本文解析的论文是:
Lin, C.; Du, P.; Samat, A.; Li, E.; Wang, X.; Xia, J. Automatic Updating of Land Cover Maps in Rapidly Urbanizing Regions by Relational Knowledge Transferring from GlobeLand30. Remote Sens. 2019, 11, 1397. https://doi.org/10.3390/rs11121397

本篇论文的目的是在同一个区域中,如何利用历史已有的分类数据作为参考,来对其他时间的影像进行分类,已达到不用人为选择样本即可完成分类的目的。

注意:文章中的方法是针对同一个区域,进行不同时间的样本迁移,而关于不同区域相同时间或不同时空的样本迁移,后文会补充其他论文的解析。

先验:我们知道同一个区域,在不同时间内肯定会有变化,而区域较大的话,其不变的大于变化的概率会更大。如果我们找到此区域不变的区域,同时在此不变的区域中从历史标签中选择部分样本,同时利用一定的策略对此样本清洗一下(为什么要对历史标签中样本进行清洗呢,因为历史标签可能存在部分分类错误),那完全可以作为其他时间的真实标签作为训练样本。

根据先验的分析,需要具体完成以下几点:

  1. 样本如何清洗,历史数据从哪来?
  2. 不变区域如何获取?
    根据上述对论文的分析,以下分别展开描述;

1 样本获取清洗?

1.1 实验数据介绍

先简单描述一下相关的实验数据,如下,以南京和杭州两个区域为例,选择了landsat5/8作为数据源

辅助数据:

夜间灯光数据:DMSP/OLS NTL云免费年度合成数据的第四版

数字表面模型(DSM):日本宇宙航空研究开发机构开发的"ALOS World 3D"。

数字地形模型(DEM):日本经济、贸易和工业部(METI)和美国宇航局(NASA)共同开发的ASTER全球数字高程模型。

标签数据:

GlobeLand30数据集:包括耕地、森林、草地、水体、湿地、人造表面等十种类型。2010年的数据被用于本研究,整体准确率达到80.33%。

同时选择2010年的两个研究区的影像和标签数据配对,作为标签分类时的影像,因为真实对应标签的影像时间难以获取,所以选择同年份的遥感影像。

1.2 基本清洗

相关数据介绍之后,开始对2010年的影像和标签进行处理了,以清洗掉不符合影像中的类别或者是分类错误的标签。

方法:

基于GlobeLand30的统计结果,实验区域主要包含六种土地覆盖类型:耕地、森林、草地、水体、湿地和人造表面。灌木地和裸地的比例都不到0.03%,而永久性冰雪和冻原在实验区域并不存在。这六种土地覆盖类型足以构成快速城市化地区的类别体系,并且可以满足大多数城市地区研究和应用的需求。因此,提出的土地覆盖优化策略仅考虑与这六种类型相关的决策规则。

由于GlobeLand30的整体准确率低于85%,这意味着土地覆盖产品中存在许多分类错误的区域。为了最小化这些因素影响,提出了一种基于多模态数据集提供的土地覆盖信息的土地覆盖优化策略。该策略通过建立决策规则,整合了质量增强的NTL数据、从DSM提取的高程和坡度信息,以及从Landsat影像中提取的一系列指数。

我们计算了与植被、水和不透水表面相关的指数,以帮助制定决策规则。

归一化植被差异指数(NDVI)被广泛接受用于增强植被与非植被之间的差异。

改进的归一化水差异指数(MNDWI)可以显著增强水信息,尤其是在城市场景中。

生物物理组成指数(BCI)已被证明与不透水表面丰度的关系比其他指数更密切。

这三个指数被用来帮助制定决策规则。

基于先验知识,为六种土地覆盖类型建立了优化策略。耕地类别应包括灌溉农田、温室耕地、经济耕地等。BCI和NTL可以检测到耕地类别中的一些分类错误的像素,尤其是农村小屋。由于人类管理,耕地通常耕作在相对平坦的地形上,这与其他植被不同。人造表面主要包括城市地区、道路、农村小屋等。与其他土地覆盖类型不同,其对应的像素通常具有较大的BCI和NTL值,以及较小的MNDWI和NDVI值。NDVI可以纠正森林和草地的分类结果,MNDWI可以纠正水体的分类结果。为了获得更好的优化结果,另外两个指数被选为这三种土地覆盖类型的决策规则。

关于BCI指数:Deng, C.; Wu, C. BCI: A biophysical composition index for remote sensing of urban environments. Remote Sens.

Environ. 2012, 127, 247--259

如图显示了用于优化GlobeLand30的策略。变量σi表示不同土地覆盖类别的不同特征的阈值。为了自动实现土地覆盖类别,应用Otsu的二值化算法进行阈值决策。

通过上述方法完成了初步的数据清洗,由于分类数据集本来精度也挺高,在对标签进行纠偏之后,有的文献就直接将其应用到2010年的影像上进行训练分类了。但这时候依然无法完成向其他时间的迁移,这时候有人在把其他时间,比如2020年的影像和历史标签,比如这里的2010的标签利用上述方法进行清洗,然后作为训练样本进行分类。

这没有考虑到影像和标签时间差异较大,如果清洗效果不好的话,后直接影响到后面分类效果。
ps:不复杂的区域,这样做,其实精度可能也还行。

而本文处理后续还有进一步的数据清洗,以获取高精度的样本。

1.3 进一步清洗

基于上述决策规则的策略用于从GlobeLand30中移除可能分类错误的像素。此外,设计了知识转移过程的工作流程。工作流程包括三个主要步骤:

(1) 使用优化过程的输出执行基于光谱特征(SC)的聚类;

(2) 根据聚类结果使用区分标准分配训练集T1;

(3) 识别变化和未变化区域,并使用转移的土地覆盖知识标记X2中的未变化像素。在上述三个步骤之后,历史地图中的土地覆盖知识被转移到新的卫星图像上。这三个步骤的详细描述如下。

我们先来看SC聚类:

在文章中提到的"spectral characteristic-based clusters"方法(利用了不同土地覆盖类型在光谱曲线上的独特形状来进行分类。这种方法的目的是将具有相似光谱特性的像素聚集在一起,形成不同的类别或"聚类",以便于后续的土地覆盖分类。

其原理如下:

光谱曲线向量:在每一类像元中的每个像素,计算一个光谱曲线向量,该向量包含了像素在不同波段间的反射率差异。这些差异是通过比较每个波段的反射率值来计算的,使用如下公式:

其中( s_{m,p,q} )是像素( m )在波段( p )和( q )的光谱曲线特征值,( x_{m,p} )和( x_{m,q} )分别是该像素在波段( p )和( q )的反射率值,( f )是一个二值化函数,当反射率差异大于0时取1,否则取0。
其实Sm就是一个波段与其他波段的差值,如b1,b2,b3, 进行f(b2-b1),f(b3-b2),f(b3-b1),根据正负确定0/1,这样组成每个像元的光谱曲线向量。
聚类操作:接下来,根据计算出的光谱曲线向量,将相同的曲线分类为一个子类。注意这里是在每个标签类别所在的像元里面,计算这些像元的光谱曲线向量,然后将向量一样的进一步划分为子类,和一般的k-means分类不一样。
统计直方图 :对每个类别所在的像元里面的每个子类的聚类的像素数量进行统计,形成一个直方图,这有助于识别哪些聚类代表了图像中的主要土地覆盖类型。
去除小聚类:最后,移除那些像素数量很少的聚类,因为它们可能不代表主要的土地覆盖类型,或者可能是由于噪声或异常值造成的。

至此,在每个类别所在像元内部,进一步划分若干个子类,这些子类按照像元数量进行直方图统计,因为就算是一个类别,其内部之间也是有差异的,只不过这种差异可能比和其他的类别之间的较小而已。

那如何判定类间差异和类类之间的差异大小,以进一步筛选出子类呢?

为了分类目的,不同土地覆盖类别的训练样本应该具有足够的可分性。从这个角度来看,基于类相似性为SC聚类输出定义了区分标准。因此,根据不同土地覆盖类别中子类的区分标准进一步选择聚类结果。类相似性是根据J-M距离来衡量的。对于不同土地覆盖类别的子类i和子类j,计算它们之间的J-M距离。

区分标准如下:通过J-M距离成对计算每个直方图中除第一类之外的所有子类的类相似性。对于给定的子类i和不同土地覆盖类别中的子类j,如果J-M距离的结果低于用户定义的阈值(假定为1),则建议删除这对。
最终剩余的子类构成了训练集T1。

至此,利用JM距离对各子类进一步筛选,以去掉可分离性较小的像元,剩下的样本组成T1样本集。

2 不变区域获取

以上完成了样本清洗工作,目前已经有2010年相对于遥感影像的质量较好的一组样本集T1。

刚刚强调过,如果直接选择其他时间的遥感影像,比如2020年,完成上述的清洗工作,获取的样本可以直接作为2020年遥感影像的训练样本进行分类,但考虑到精度问题,这里不是这样做。

现在考虑如何将样本进行迁移工作,我们知道一个区域在不同时间肯定有变化的,而变化分为变化区域和不变区域,如果找到不变区域,将不变区域中的T1样本集中的标签取出来作为其他时间的训练样本不就行了?

基于此思路,文中直接将其他时间遥感影像,如2018年遥感影像的各波段和2010影像波段直接做差,然后求和,计算出变化强度特征,然后利用OTSU方法进行阈值分割获取不变区域mask

然后利用mask和T1相交,即获取不变区域的各类别样本的稳定标签。

关于变化检测的方法可参考:
变化检测综述

至此获取到其他时间的稳定的训练样本,进入到正常分类流程即可,选择合适的分类特征和分类器即可。

总结:

本文主要利用历史标签数据完成了在不同时间上的样本迁移,前提是要在同一个区域,在其他时间获取到稳定的样本之后,可以完成高精度的分类。

欢迎点赞,收藏,关注,支持小生,打造一个好的遥感领域知识分享专栏 。遥感学习专栏

同时欢迎私信咨询讨论学习,咨询讨论的方向不限于:地物分类/语义分割(如水体,云,建筑物,耕地,冬小麦等各种地物类型的提取),变化检测,夜光遥感数据处理,目标检测,图像处理(几何矫正,辐射矫正(大气校正),图像去噪等),遥感时空融合,定量遥感(土壤盐渍化/水质参数反演/气溶胶反演/森林参数(生物量,植被覆盖度,植被生产力等)/地表温度/地表反射率等反演)以及高光谱数据处理等领域以及深度学习,机器学习等 技术算法讨论,以及相关实验指导/论文指导,考研复习等多方面。

相关推荐
AIGC大时代1 分钟前
如何使用ChatGPT辅助文献综述,以及如何进行优化?一篇说清楚
人工智能·深度学习·chatgpt·prompt·aigc
人机与认知实验室2 小时前
人、机、环境中各有其神经网络系统
人工智能·深度学习·神经网络·机器学习
靴子学长7 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
海棠AI实验室8 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
苏言の狗11 小时前
Pytorch中关于Tensor的操作
人工智能·pytorch·python·深度学习·机器学习
paixiaoxin13 小时前
CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究
人工智能·深度学习·机器学习·生成对抗网络·计算机视觉·ocr·.net
weixin_5152024914 小时前
第R3周:RNN-心脏病预测
人工智能·rnn·深度学习
吕小明么15 小时前
OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考
人工智能·深度学习·算法·aigc·agi
CSBLOG16 小时前
深度学习试题及答案解析(一)
人工智能·深度学习
小陈phd16 小时前
深度学习之超分辨率算法——SRCNN
python·深度学习·tensorflow·卷积