目录
[应用 1:它是相关性还是托布勒第一定律?](#应用 1:它是相关性还是托布勒第一定律?)
[应用 2:将空间带入非空间模型](#应用 2:将空间带入非空间模型)
在 ArcGIS Pro 3.4 中,我们在新的空间组件实用程序(Moran 特征向量)工具集 中发布了一个新工具 - 从字段过滤空间自相关。此工具允许我们获取数值变量并从中提取空间模式。它给了我们所谓的过滤变量和一个或多个空间组件。过滤后的变量表示从原始变量中提取可识别的空间模式后得到的变量。想象图 1 中描绘的场景,绿色的数值变量在南部和东南部地区显示更高的值。通过应用从字段过滤空间自相关工具,变量被分为非空间部分和空间部分。以蓝色显示的非空间部分表示空间过滤变量。从原始变量中删除的空间模式被捕获在相应的空间组件中。一个组件显示东南部和非东南部地区的模式,而另一个组件突出显示非中西部和中西部模式。这些成分各自代表特定尺度的空间自相关,彼此之间不相关。
此工具在两种情况下非常有用。首先,它帮助我们探索两个变量之间的关系,同时减少邻近影响的干扰。其次,它通过消除空间错误指定来增强回归和机器学习模型,并可以使非空间模型成为空间模型。
应用 1:它是相关性还是托布勒第一定律?
"研究人员如何知道变量 y 和变量 x 是否以有意义的方式相互关联,或者它们是否仅仅因为"一切都与其他一切相关"而显得相关?"(Thayn,2017)
作为地理学家或 GIS 分析师,我们认识到大多数现象并非独立于空间而存在。我们相信托布勒地理学第一定律------"万事万物都相互关联,但近处的事物比远处的事物关联性更强。"空间数据的这一独特方面往往违背了观测值相互独立的统计假设。因此,在评估两个变量之间的关系时,很难判断它们的关系是真实的还是仅仅是显著的空间自相关的结果。
例如,下图是波士顿老房子比例与一氧化氮浓度关系的散点图。该图表明,两者呈正相关。随着老房子比例的增加,一氧化氮浓度也上升。
然而,当观测值受到相邻数据点的影响时,确定图 2 中所示的强正关系就变得具有挑战性,因为这可能是由于空间自相关的混杂影响造成的。如果你看看老房子和新奥尔良的地图(下面的2幅图),你会注意到这两个变量都表现出很强的空间聚类性。
这就是"从文件过滤空间自相关"工具发挥作用的地方。它帮助我们从变量中分离出空间成分,使我们能够独立于相邻变量的影响来研究两个变量之间的关系。在该工具中,我首先选择波士顿数据作为输入特征。然后,下面两幅图显示了用于过滤房屋年龄和一氧化氮字段的工具对话框。
通过两次运行此工具生成了两个输出。一个输出地图基于过滤后的 AGE 进行符号化,表示波士顿老房子的比例,不受空间影响(见下面第一张图)。第二张地图展示了过滤后的一氧化氮,显示了过滤空间自相关后的 NO 浓度。
过滤步骤可以在地理处理消息中找到。例如,图 9 演示了如何在四次迭代后消除 AGE 中存在的空间自相关。最初,Moran's I 指数为 0.3206,P 值为 0.001,表明存在显著的空间自相关。从 AGE 中过滤四个空间成分后,Moran's I 指数下降,P 值增加到 0.99。这一变化告诉我们空间自相关不再显著。
现在,下图展示了滤除空间影响后两个变量之间的关系。将应用1的第一幅图与下图进行比较,我们会发现,应用1的第一幅图中显示的强正相关关系很大程度上是由于共享的空间关系,但滤除空间关系后仍然存在一些相关性。
应用 2:将空间带入非空间模型
如前所述,空间数据经常违反传统统计方法的假设,导致估计有偏差和结果可疑。然而,通过整合从字段过滤空间自相关工具返回的空间组件,我们可以将空间信息纳入非空间模型,将其转变为空间感知模型。
举个例子,我们有俄亥俄州的人口统计数据,使用基于森林和增强分类与回归工具构建了一个基于森林的模型。我们的目标是更深入地了解贫困因素,并估计实施潜在干预计划后的贫困百分比。
选择过去 12 个月收入低于贫困水平的人口百分比作为要预测的输入变量。所选的解释训练变量包括:
-
受赡养年龄组人口百分比(18 岁以下和 65 岁以上)
-
外国出生人口百分比
-
房屋自有率:自住住房占已入住住房的百分比
-
25 岁及以上人口中最高教育程度为学士学位或更高学位的百分比。
最后,将输出训练特征保存为Poverty_Pred,然后点击运行。
运行该工具后,得到了一个输出训练层,其中显示了其标准化残差(下面第一幅图)。让我们看一下地图,可以注意到两个聚类:绿色阴影的县位于东南部,而紫色阴影的县聚集在西北部。该残差图表明,该模型倾向于低估东南部地区的贫困率(%),而高估西北部地区的贫困率。换句话说,模型的残差中存在明显的空间自相关性。这突显了不同地区预测能力的不平等,表明这种基于森林的模型无法解释数据中存在的某种空间模式。模型性能也需要改进,因为目前的验证 R 平方为 0.578(下面第二幅图)。
为了解决基于森林的模型中的空间偏差,我使用了"从字段过滤空间自相关"工具。
打开该工具,并选择Poverty_Pred(基于森林的模型生成的输出)作为输入特征。
选择标准化残差作为输入字段,指定Poverty_Pred_FilterSpatialAutocorrelationFromField作为输出特征,并且运行该工具。
此工具生成的输出要素不仅包含过滤后的输入字段,还包含与输入字段隔离的空间组件。在这种情况下,空间组件表示我们在上方地图中看到的基于森林的模型无法解释的空间模式。因此,基于森林的模型中包含此空间组件后,该模型可能能够解决预测能力的空间分布不均的问题。
-
重新打开基于森林和增强分类与回归,而不是原来的poverty_Ohio。
-
Poverty_Pred_FilterSpatialAutocorrelationFromField作为输入训练特征。
-
保留了大部分预测变量和解释训练变量,同时添加了空间成分作为额外的解释训练变量。
-
然后,点击运行。
下图显示了改进的效果。训练 R2 从 0.903 增加到 0.938。更重要的是,验证 R2 从 0.578 显著增加到 0.819,同时所有误差(包括 MAE、MAPE 和 RMSE)均有所减少。这种改进的基于森林的模型表明该模型更加可靠,我们对解释变量重要性和估计贫困率更有信心。
让我们看看变量重要性,注意到我添加到模型中的空间组件位于顶部。空间组件正在捕获我们在原始训练数据集中没有的空间过程,这可能是俄亥俄州贫困的一个关键指标。
我们甚至可以绘制空间成分图,以查看对贫困率影响巨大的空间模式。该成分的模式在俄亥俄州阿巴拉契亚地区显示较高值,而在俄亥俄州非阿巴拉契亚地区显示较低值,这表明我们在试图减轻俄亥俄州的贫困时应该关注这种明显的空间差异。空间成分还为我们提供了应该将哪些现实世界变量纳入模型的见解。当我们不知道可能缺少哪些变量时,应该使用空间成分作为替代。只要有可能,总是建议采用可测量的替代方案。
结论
在这篇文章中,我们展示了"从字段过滤空间自相关"工具如何在两种情况下发挥作用。首先,它通过过滤空间的影响来帮助我们评估两个变量之间的关系。其次,空间成分可以作为模型中缺失的重要解释变量的代理变量。通过将成分添加到非空间机器学习模型中,模型将转变为空间模型,而无需修改模型的结构。此外,从残差中分离出来的空间成分为我们的模型中可能被忽视的现实世界变量提供了宝贵的见解。
转载请注明出处:ArcGIS Pro 3.4新功能3:空间统计新特性,基于森林和增强分类与回归,过滤空间自相关
作者:ArcGIS中国培训中心 www.higisedu.cn