ArcGIS Pro原理第一期:空间插值原理
- 插值分析
- 空间插值方法概述
-
- [1.1 全局多项式(global polynomial interpolation, GPI)](#1.1 全局多项式(global polynomial interpolation, GPI))
- [1.2 局部多项式(local polynomial interpolation, LPI)](#1.2 局部多项式(local polynomial interpolation, LPI))
- [1.3 反距离加权法(inverse distance weighted, IDW)](#1.3 反距离加权法(inverse distance weighted, IDW))
- [1.4 径向基函数插值法(radial basis functions, RBF)](#1.4 径向基函数插值法(radial basis functions, RBF))
- 参考
插值分析
插值可以根据有限的样本数据点预测栅格中的像元值。 它可以预测任何地理点数据(如高程、降雨、化学物质浓度和噪声等级)的未知值。
为什么要插值为栅格?
要使插值成为可行选项,需假设空间分布对象在空间上是相关的;也就是说,靠近的事物往往具有相似的特征。 例如,如果街道的一侧正在下雨,则可以预测街道的另一侧也在下雨的可信度将很高。 但是您无法确定整个城镇是否都在下雨,也无法确定下一个县的天气状况。
使用上面的类比,很容易看出靠近采样点的点的值比距离较远的点更可能相似。 此为插值基础。 点插值的典型用途是根据一组样本测量值创建高程表面。 地理统计分析还将提供大量的插值方法。
插值应用示例
下面是插值工具的一些典型应用示例。 随附的图示将显示采样点的分布和值以及从中生成的栅格。
1、插值为降雨面
此处的输入是已知降雨量值的点数据集,如左图所示。 右侧的图示显示了从这些点插值的栅格。 未知值是通过使用附近已知点的值的数学公式来预测的。
2、插值成高程面
点插值的典型用途是根据一组样本测量值创建高程表面。
在下图中,点图层中的每个符号代表测量高程的位置。 通过插值,将预测这些输入点之间每个像元的值。
3、插值为浓度面
在以下示例中,将使用插值工具对臭氧浓度与加利福尼亚肺部疾病的相关性进行研究。 左图显示臭氧监测站的位置。 右图显示了插值表面,提供了加利福尼亚州每个位置的预测。 表面是使用克里金法派生的。
空间插值方法概述
有两种主要的空间插值方法:
- 确定性空间插值法(Deterministic interpolation technique)
确定性插值技术从测量点创建曲面,基于相似性程度(逆距离加权)或平滑程度(径向基函数)。 - 地质统计学(Geostatistical interpolation technique)
地质统计插值技术(kriging)利用测点的统计特性。地质统计技术量化了测点之间的空间自相关性,并解释了预测位置周围样本点的空间配置。
确定性插值技术可分为全局插值和局部插值两大类。
- 全局技术使用整个数据集计算预测。
- 局部技术从邻域内的测量点计算预测,邻域是较大研究区域内较小的空间区域。
Geostatistical Analyst提供了全局多项式作为全局插值器和逆距离加权、局部多项式、径向基函数、核平滑和扩散核作为局部插值器。
确定性插值可以强制生成的曲面通过数据值,也可以不通过。在采样位置预测与测量值相同的值的插值技术称为精确插值。不精确内插器预测的值与实测值不同。后者可用于避免输出表面出现尖峰或波谷。逆距离加权函数和径向基函数是精确插值函数,而全局多项式、局部多项式、带势垒的核插值函数和带势垒的扩散插值函数是不精确插值函数。
1.1 全局多项式(global polynomial interpolation, GPI)
方法原理
全局多项式插值(global polynomial interpolation, GPI)将由数学函数(多项式)定义的光滑曲面拟合到输入样本点上。全局多项式曲面是逐渐变化的,可以捕获数据中的粗尺度模式。
从概念上讲,全局多项式插值就像拿一张纸,在凸起点(凸起到值的高度)之间拟合它。如下图所示,这是在一个平缓倾斜的山上拍摄的一组海拔点样本(这张纸是洋红色的)。
但是一张平面的纸并不能准确地捕捉到包含山谷的风景。
然而,如果你被允许弯曲一张纸一次,你会得到一个更好的适合。在数学公式中加入一项也会得到类似的结果,即平面的弯曲。
- 一个平面(纸上没有弯曲)是一个一阶多项式(线性)
- 允许一次弯曲是二阶多项式(二次多项式)
- 两次弯曲是三阶(三次多项式),以此类推
Geostatistical Analyst最多允许10阶多项式。
下图从概念上演示了拟合谷的二阶多项式。
这张纸很少会穿过实际的测量点,从而使全局多项式插值成为一个不精确的插值器。有些点在纸的上面,有些点在纸的下面。
然而,如果你把每个点在纸上的高度加起来,再把每个点在纸下的高度加起来,两者的总和应该是相似的。洋红色的表面是通过最小二乘回归拟合得到的。产生的表面使凸起值和纸张之间的平方差最小。
使用范围
全局多项式插值的结果是一个光滑的表面,表示感兴趣区域表面上的渐变趋势。
全局多项式插值用于以下情况:
- 当表面在感兴趣的区域上从一个区域到另一个区域缓慢变化时(例如,工业区的污染),将表面拟合到样本点。
- 检查和/或消除长期或全球趋势的影响。在这种情况下,这种技术通常被称为趋势面分析。
全局多项式插值使用可能描述某些物理过程(如污染和风向)的低阶多项式创建缓慢变化的表面。
然而,应该注意的是,多项式越复杂,就越难以赋予它物理意义。
此外,计算出的曲面非常容易受到异常值(极高和极低的值)的影响,特别是在边缘。
1.2 局部多项式(local polynomial interpolation, LPI)
方法原理
当全局多项式插值拟合一个多项式到整个曲面时,局部多项式插值拟合许多多项式,每个多项式都在指定的重叠邻域内。搜索邻域可以通过使用大小和形状、邻域的数量和扇区配置来定义。
一阶全局多项式通过数据拟合单个平面;二阶全局多项式拟合一个有弯曲的曲面,允许曲面表示谷;三阶全局多项式允许两次弯曲;等等。
然而,当一个表面具有不同的形状时(例如一个景观会倾斜、平整,然后再次倾斜),单个全局多项式将不能很好地适应。多个多项式平面可以更准确地表示曲面,如下图所示:
另一方面,局部多项式插值只使用定义的邻域内的点来拟合指定的阶(零、第一、第二、第三等等)多项式。邻域重叠,用于每次预测的值是邻域中心拟合多项式的值。
在下面的图像中,截取了样本高程数据的横截面(横断面)。
在第一张图像中,使用三个邻居(红点)来拟合一阶多项式和一条线(红线)来预测由蓝点识别的位置的未知值。
在第二张图像中,第二个位置(黄色点)由另一个一阶多项式预测。它非常接近第一个位置,并且在预测中使用了相同的测量点,但权重会略有不同,因此多项式拟合(蓝线)略有不同。
这个过程继续进行,以后续的预测位置为中心,拟合局部多项式来预测值。下面的两张图片显示了两个任意的点被预测来创建最终的表面。橙色点是用绿色的测量样本点从拟合的多项式(绿线)预测出来的,棕色点是用浅紫色的多项式预测出来的。
在下面的两张图片中,我们拟合了另外两个多项式(黄色和灰色的线)来预测另外两个位置(蓝绿色和绿色的点)。
这个过程在每个位置继续进行。您可以看到如何为下面的样本点创建表面(紫色表面线)。
精度测量(Measures of accuracy)
局部多项式插值提供了以下两种精度度量,这是ArcGIS Geostatistical Analyst提供的其他确定性插值方法所不能提供的:
- 预测标准误差表示与每个地点预测值相关的不确定性。
- 空间条件数是对特定位置的预测方程的解的稳定或不稳定程度的度量。
如果条件数较大,则矩阵系数的微小变化会导致解向量(回归系数)的巨大变化。空间条件数面显示了数值模型稳定性的变化,并提供了关于预测不确定性的附加信息,因为预测标准误差面是在假设模型正确的情况下创建的。
当数据具有以下属性时,局部多项式插值将是最准确的:
- 样本是在网格上采集的(也就是说,样本的间隔是相等的)。
- 在搜索邻域内的数据值是正态分布的。
在实践中,大多数数据集不会有这些属性。在这些情况下,预测值会受到影响,但不会像预测标准误差那么大。为了帮助您确定某些区域的结果是否可靠,LPI提供了一个空间条件数曲面。经验法则值如下表所示,这些临界值在条件编号表面以黄色表示:
低于临界空间条件数阈值的值表明在哪些位置解是可靠的。接近或等于临界值的值是有问题的(应该仔细检查),高于临界值的值是不可靠的。
空间条件数是通过评估预测值对线性预测方程系数的微小变化的敏感程度来生成的。空间条件数小表示解稳定,空间条件数大表示解不稳定。如果解决方案的不稳定性发生在特别感兴趣的领域,则应该引起关注,因为输入数据(包括它们的值、位置和空间安排)的小变化可能导致预测值的大变化。这意味着与输入数据相关的任何不确定性(例如,属性测量中的错误或进行测量的坐标中的不精确),特别是数据异常值可能对预测值产生相当大的影响。此外,搜索邻域的变化会修改用于进行预测的数据点的数量(在平滑搜索邻域的情况下是权重),并可能影响该位置的空间条件数。
为1阶、2阶和3阶多项式创建空间条件数曲面。假设LPI模型正确(即局部加权最小二乘回归是一种合适的算法,且空间条件数值小于上表中的空间条件数阈值),估计预测标准误差。
通过在"LPI"对话框中将"使用空间条件数阈值"设置为"True",可以排除预测图和预测标准误差图中出现高条件数的区域。条件数只依赖于输入点的位置,而不是它们的实际值。换句话说,无论是来自同一数据集的臭氧值还是高程值作为LPI的输入,条件数面都保持不变。
在规则分布数据的情况下,常数核、Epanechnikov核和四次核从理论角度来看分别是0阶、1阶和2阶多项式的最佳方法。对于不规则分布的数据,应根据验证和交叉验证诊断以及空间条件数值来选择最佳内核。
带屏障的核插值是LPI的一种变体。这些结果中的局部不稳定性通过使用一种类似脊回归的技术加以修正。权衡的结果是,预测值有轻微的偏差,在大多数实际情况下,偏差不足以影响您根据预测值做出的决策。
使用范围
全局多项式插值对于创建光滑表面和识别数据集中的长期趋势很有用。然而,在地球科学中,感兴趣的变量除了具有长期趋势外,通常还具有短期变化。当数据集出现短时变化时,局部多项式插值图可以捕捉短时变化。
局部多项式插值对邻域距离敏感,较小的搜索邻域可能会在预测曲面上产生空白区域。因此,您可以在生成输出层之前预览表面。
1.3 反距离加权法(inverse distance weighted, IDW)
方法原理
逆距离加权(inverse distance weighted, IDW)插值 明确地假设,距离较近的事物比距离较远的事物更相似。为了预测任何未测量位置的值,IDW使用预测位置周围的测量值。离预测位置最近的实测值对预测值的影响大于离预测位置远的实测值。IDW假设每个测量点都有一个局部影响,随着距离的增加而减弱。它为最接近预测位置的点赋予更大的权重,并且权重随着距离的变化而减小,因此称为逆距离加权。
分配给数据点的权重如下例所示:
权重窗口包含分配给每个数据点的权重列表,这些数据点用于在十字准星标记的位置生成预测值。
幂函数(The Power function)
如上所述,权重与距离(数据点与预测位置之间的距离)上升到幂值p的倒数成正比。因此,随着距离的增加,权重迅速减小。权值下降的速率取决于p的值。
如果p = 0,则不随距离的增加而下降,并且由于每个权值λi是相同的,因此预测结果将是搜索邻域内所有数据值的平均值。随着p的增大,距离点的权重迅速减小。如果p值非常高,则只有邻近的点会影响预测。
Geostatistical Analyst使用大于或等于1的幂值。
当p = 2时,该方法称为逆距离平方加权插值。默认值是p = 2,尽管理论上没有理由更喜欢这个值,并且应该通过预览输出和检查交叉验证统计来研究改变p的效果。
搜索邻域(The search neighborhood)
由于距离较近的事物比距离较远的事物更相似,因此随着位置的距离越来越远,测量值与预测位置的值之间的关系将越来越小。为了加快计算速度,可以排除对预测影响不大的较远的点。因此,通常的做法是通过指定搜索邻域来限制测量值的数量。邻域的形状限制了在预测中寻找测量值的距离和位置。其他邻域参数限制了将在该形状中使用的位置。
在下面的图像中,在预测没有测量的位置(黄色点)的值时,将使用五个测量点(相邻点)。
邻域的形状受到输入数据和您尝试创建的曲面的影响。如果你的数据中没有方向性的影响,你就需要平等地考虑所有方向上的点。为此,将搜索邻域定义为一个圆圈。但是,如果数据中存在方向性影响,例如盛行风,则可能需要通过将搜索邻域的形状更改为长轴与风平行的椭圆来对其进行调整。这种方向影响的调整是合理的,因为你知道,从一个预测位置逆风的位置在遥远的距离上比垂直于风但靠近预测位置的位置更相似。
一旦指定了邻域形状,就可以限制应该使用该形状中的哪些数据位置。您可以定义要使用的位置的最大和最小数量,并且可以将社区划分为扇区。如果将邻域划分为扇区,则最大和最小约束将应用于每个扇区。
数据视图中突出显示的点显示了用于预测椭圆中心位置(十字准星的位置)的位置和权重。搜索邻域被限制在椭圆的内部。
在下面的示例中,两个红点的权重将超过10%。在东部地区,一个点(棕色)的权重将在5%到10%之间。搜索邻域中的其余点将获得较低的权重。
使用范围
利用IDW计算曲面取决于功率值(p)的选择和搜索邻域策略。IDW是一个精确插值器,在插值曲面上的最大值和最小值(见下图)只能出现在样本点上。
输出面对聚类和异常值的存在很敏感。IDW假设正在建模的现象是由局部变化驱动的,可以通过定义适当的搜索邻域来捕获(建模)。由于IDW不提供预测标准误差,因此证明使用该模型可能存在问题。
1.4 径向基函数插值法(radial basis functions, RBF)
径向基函数插值法(radial basis functions, RBF)是一系列精确插值技术;也就是说,表面必须通过每一个被测样本值。有五种不同的基函数:
- 利用薄板样条(Thin-plate spline)
- 带张力花键(Spline with tension)
- 完全正则样条(Completely regularized spline)
- Multiquadric函数(Multiquadric function)
- 逆多重二次函数(Inverse multiquadric function)
每个基函数都有不同的形状,产生不同的插值曲面。RBF方法是样条的一种特殊情况。
方法原理
径向基函数插值法(radial basis functions, RBF)在概念上类似于通过测量样品值拟合橡胶膜,同时最小化表面的总曲率。您选择的基函数决定了橡胶膜在这些值之间的匹配程度。
下图从概念上说明了RBF表面如何通过一系列高程样本值进行拟合。注意在横截面中,曲面经过数据值。
作为精确插值方法,RBF方法不同于全局和局部多项式插值方法,后者都是不精确的插值方法,不需要曲面经过测量点。
当将RBF与IDW(它也是一个精确的插值器)进行比较时,IDW永远不会预测高于最大测量值或低于最小测量值的值,正如您在下面的样本数据横断面中所看到的那样。
然而,RBF可以预测高于最大值和低于最小测量值的值,如下面的横截面所示。
使用交叉验证确定最优参数,其方式与IDW和局部多项式插值解释的方式相似。
使用范围
RBF用于从大量数据点生成光滑表面。这些功能对平缓变化的表面(如海拔)产生良好的效果。
然而,当表面值在短距离内发生较大变化和/或当您怀疑样品数据容易产生测量误差或不确定度时,这些技术就不合适了。
径向基函数背后的概念
在Geostatistical Analyst中,RBF是在每个数据位置形成的。RBF是一个随距离变化的函数。
例如,假设径向基函数是到每个位置的距离,因此它在每个位置上形成一个倒锥。如果取x,z平面的横截面,y = 5,你会看到每个径向基函数的切片。现在,假设您想要预测y = 5和x = 7处的值。每个径向基函数在预测位置的值可以从上图中取,由Φ1、Φ2和Φ3给出,这些值仅取决于与每个数据位置的距离。预测值由w1Φ1 + w2Φ2 + w3Φ3 +...
现在的问题是如何确定权重?
到目前为止,您根本没有使用数据值。权重w1、w2、w3等等,是通过要求将预测移动到具有测量值的位置时,准确地预测数据值而得到的。这就形成了N个有N个未知数的方程,并且可以唯一地解。因此,表面通过数据值,使预测准确。
本例中的径向基函数是多二次RBF的一种特殊情况。Geostatistical Analyst还允许您使用其他RBF,如完全正则化样条,薄板样条,张力样条和逆多重曲线。有时,这些方法之间的差异并不大,但您可能有理由选择其中一种,或者您可以尝试几种方法并使用交叉验证来选择一种。每个RBF都有一个参数来控制表面的平滑度。
除逆多重曲面外,参数值越高,映射越平滑;逆多重二次函数的情况正好相反。
参考
1、ArcGIS Pro-了解插值分析
2、ArcGIS Pro-Deterministic methods for spatial interpolation