文章目录
- 前言
- 第一步:你要解决的问题(为什么要插值?)
- 第二步:核心思想------"近的东西更相似"(空间自相关)
- [第三步:半变异函数 ------ 找到"距离与差异"的数学关系](#第三步:半变异函数 —— 找到“距离与差异”的数学关系)
- 第四步:选择理论半变异函数模型(给规律套公式)
- 总结
前言
克里金法是通过一组具有 z 值的分散点生成估计表面的高级地统计过程。与插值工具集中的其他插值方法不同,选择用于生成输出表面的最佳估算方法之前,有效使用克里金法工具涉及 z 值表示的现象的空间行为的交互研究。
第一步:你要解决的问题(为什么要插值?)
想象一下,你在一个城市开了几家奶茶店,每间店都记录了今天的平均销量。现在你想做一张全市奶茶销量热度预测图,但你不能在全市每个路口都开店。
你的已知数据:散布在城市里的10家店的销量数据。
你的目标:预测那些没有开店的区域(比如某个小区、某个商场门口)的销量大概是多少。
克里金插值,就是帮你完成这个预测的"超级算法"。它不是一个简单的平均,而是一个聪明的、考虑距离和空间规律的加权平均。
第二步:核心思想------"近的东西更相似"(空间自相关)
这是克里金插值的核心假设:距离越近的两家店,它们的销量应该越相似;距离越远,销量差异可能越大。
就像两家紧邻的奶茶店销量会差不多,但一个在市中心,一个在郊区,销量就可能天差地别。
那么,这个"相似度随距离如何变化"的规律,怎么找呢?
答案就是靠 "半变异函数"。
第三步:半变异函数 ------ 找到"距离与差异"的数学关系
我们来"发明"这个函数:
- 收集数据对:把你所有的奶茶店两两配对。
- 计算:
距离(h):测量每一对店之间的直线距离。
差异值(γ):计算这一对店销量的差异,公式是:差异值 = (销量1 - 销量2)² / 2。
画点:以距离(h) 为横轴,差异值(γ) 为纵轴,把每一对店的数据点画在图上。你会得到很多散点。
拟合曲线:画一条最能代表这些散点分布趋势的平滑曲线。这条曲线就是经验半变异函数。
这条曲线告诉了我们一个关于你奶茶生意的秘密:
- 开始阶段(近处):曲线快速上升。说明即使距离很近,销量差异也可能不小(比如店开在马路两边,一边人多一边人少)。
- 平稳阶段:曲线上升到某个高度后,开始变得平缓,不再明显上升。
- 变程(Range):曲线开始变平缓的那个距离点。这意味着,超过这个距离的两家店,它们的销量就没什么空间相关性了,和随便选两家店差不多。比如"变程=3公里",意味着3公里以外的店对彼此销量预测基本没参考价值。
- 基台值(Sill):曲线平缓时达到的高度。代表了数据的总体波动水平。
- 块金值(Nugget):曲线在距离为0时与纵轴的截距。理论上距离为0差异应该为0,但现实中由于测量误差或微小尺度的剧烈变化(比如同个商场里不同位置的店销量也有差别),会导致一个初始差值。块金值越大,说明小范围的随机波动越强。
第四步:选择理论半变异函数模型(给规律套公式)
经验曲线是散点,我们需要用一个标准的数学公式(模型)来拟合它,才能用于计算。ArcGIS里常用的几个模型,就像不同形状的"尺子":
-
球状模型
特点:线性增长,达到变程后突然变得完全平缓。
比喻:像爬一个坡,到顶后是一个平地。最常用,适用于大多数具有明确影响范围的现象(如污染物扩散、气温)。
什么时候选:当你数据的半变异函数在变程内增长比较均匀,到达变程后相关性迅速消失。
-
指数模型
特点:从原点开始以指数形式增长,逐渐逼近基台值,在数学上需要到无穷远才完全达到基台值。通常定义一个"有效变程"(达到基台值95%的距离)。
比喻:像一个永远在接近但很难完全到达天花板的过程。空间影响的范围没有绝对的边界,只是影响越来越弱。
什么时候选:当空间相关性随距离衰减得非常缓慢,没有绝对边界时。
-
高斯模型
特点:在原点附近呈抛物线形状(非常平缓),然后加速上升,最后逐渐平缓。
比喻:现象在非常近的范围内非常相似(曲线很平),然后差异性才开始显现。比如土壤中某种元素含量,一小片区域内可能很均匀,超出一定范围才变化。
什么时候选:当数据在短距离内具有高度的连续性、非常平滑时。
如何选择?黄金法则:
- 让软件自动拟合:这是最推荐新手使用的方法。在ArcGIS的克里金工具中,直接选择"最优"选项,软件会根据你的数据,自动计算并匹配最佳模型和参数。
- 手动比较:如果自动效果不好,你可以分别用这几个模型试一遍,然后看预测误差。重点关注:
均方根误差(RMSE):越小越好。
平均标准误差(ASE):越小越好。
标准平均值:越接近0越好。
RMSSE:最理想是接近1。>1表示低估了预测的不确定性,<1表示高估了。
选择那个让RMSE最小,且RMSSE最接近1的模型。
总结
把整个流程串起来,就像做一杯"空间预测奶茶":
- 原料(你的数据):散布在各处的奶茶店销量。
- 研究配方(半变异分析):分析"距离"和"销量差异"的关系,找到"3公里以内有参考价值,3公里外不管用"的规律。
- 选择标准量具(选择模型):
球状模型像有刻度的量杯,界限分明。
指数模型像一把有弹性的软尺,边界模糊。
高斯模型像一个漏斗,开始很细,变化慢。
不知道怎么选?让厨师长(软件)自动推荐一个最合适的! - 制作奶茶(克里金插值):预测一个新地点(如A小区)的销量时:
找出A小区附近3公里内的所有店。
根据它们各自的距离和我们找到的配方规律,给每家店的销量分配一个权重(近的权重大,远的权重小)。
用这个加权平均算出的值,作为A小区的预测销量。 - 品控报告(检验误差):最后,算法还会告诉你这杯"预测奶茶"的可信度如何(Kriging方差),误差大不大。