GeoDa 空间回归分析

前置知识 ： $\[GeoDa空间自相关分析$ ]
难度等级 ：⭐⭐⭐⭐⭐
更新日期：2026-03-16

📋 目录

[1. 空间回归基础](#1. 空间回归基础)
[2. 空间滞后模型（SLM）](#2. 空间滞后模型（SLM）)
[3. 空间误差模型（SEM）](#3. 空间误差模型（SEM）)
[4. 空间杜宾模型（SDM）](#4. 空间杜宾模型（SDM）)
[5. 模型选择策略](#5. 模型选择策略)
[6. 地理加权回归（GWR）](#6. 地理加权回归（GWR）)
[7. 实战案例](#7. 实战案例)

1. 空间回归基础

1.1 为什么需要空间回归？

传统OLS回归的假设

经典线性回归（OLS）假设：

观测值相互独立
误差项独立同分布（i.i.d.）
无空间依赖性

空间数据的挑战

复制代码

问题1：空间依赖性（Spatial Dependence）
- Tobler地理学第一定律
- 相邻区域的变量值相关
- 违背独立性假设

问题2：空间异质性（Spatial Heterogeneity）
- 关系在不同位置可能不同
- 全局模型可能掩盖局部模式

后果

复制代码

使用OLS处理空间数据可能导致：
1. 参数估计有偏（Bias）
2. 标准误估计错误（Inefficient）
3. 统计推断失效（Invalid inference）
4. 预测不准确

1.2 空间回归模型分类

复制代码

空间回归模型
│
├─ 空间滞后模型（SLM/SAR）
│  └─ 因变量的空间依赖
│
├─ 空间误差模型（SEM）
│  └─ 误差项的空间依赖
│
├─ 空间杜宾模型（SDM）
│  └─ 包含因变量和自变量的空间滞后
│
├─ 空间杜宾误差模型（SDEM）
│  └─ 包含自变量的空间滞后和空间误差
│
└─ 地理加权回归（GWR）
   └─ 局部回归模型

1.3 空间计量模型符号

符号	含义
W	空间权重矩阵
Wy	因变量的空间滞后
Wε	误差项的空间滞后
WX	自变量的空间滞后
ρ (rho)	空间自回归系数
λ (lambda)	空间误差系数
β	回归系数
θ	自变量空间滞后系数

2. 空间滞后模型（SLM）

2.1 模型形式

空间滞后模型（Spatial Lag Model, SLM），也称为空间自回归模型（SAR）：

复制代码

y = ρWy + Xβ + ε

其中：
y = n×1 因变量向量
X = n×k 自变量矩阵
W = n×n 空间权重矩阵
ρ = 空间自回归系数（-1 < ρ < 1）
β = k×1 回归系数向量
ε = n×1 误差项向量

2.2 经济学解释

复制代码

ρWy 表示因变量的空间滞后（邻居的平均值）

例子：房价空间滞后模型
PRICE_i = ρ × (邻居的平均房价) + β₁ × INCOME_i + β₂ × AREA_i + ε_i

解释：
- 本区域房价受邻居房价影响
- ρ > 0：邻居房价高，本区域房价也高（正向溢出）
- ρ < 0：邻居房价高，本区域房价低（竞争效应）

2.3 适用场景

应用领域	研究问题	ρ的含义
房地产	房价空间溢出	邻里效应强度
经济增长	区域经济收敛	知识溢出效应
犯罪学	犯罪空间扩散	犯罪传染性
疫情分析	疫情传播	传播速度

2.4 GeoDa操作步骤

步骤1：数据准备

复制代码

1. 加载数据
   File → Open → data.shp

2. 检查空间自相关
   Space → Univariate Moran's I
   （如果因变量存在空间自相关，考虑SLM）

步骤2：运行OLS回归（基准模型）

复制代码

1. Methods → Regression

2. 设置变量：
   
   ┌────────────────────────────────┐
   │ Regression Setup               │
   ├────────────────────────────────┤
   │ Dependent Variable:            │
   │ [PRICE ▼]                      │
   │                                │
   │ Independent Variables:         │
   │ ☑ INCOME                      │
   │ ☑ CRIME                       │
   │ ☑ DIST_CBD                    │
   │                                │
   │ Model Type:                    │
   │ ◉ Classic (OLS)                │
   │                                │
   │ [Run]  [Cancel]                │
   └────────────────────────────────┘
   
3. 查看OLS结果并保存

步骤3：诊断空间依赖性

复制代码

OLS结果窗口查看：

Spatial Diagnostics:
─────────────────────────────────
Lagrange Multiplier (lag) = 12.45  p = 0.0004 ***
Lagrange Multiplier (error) = 8.23  p = 0.0041 **
Robust LM (lag) = 5.67  p = 0.0172 *
Robust LM (error) = 1.45  p = 0.2285
─────────────────────────────────

解读：
- LM(lag)显著 → 考虑SLM
- LM(error)显著 → 考虑SEM
- 如果都显著，看Robust LM
- Robust LM(lag)显著 → 选择SLM

步骤4：运行SLM

复制代码

1. Methods → Regression

2. 设置：
   
   ┌────────────────────────────────┐
   │ Regression Setup               │
   ├────────────────────────────────┤
   │ Dependent Variable: [PRICE]    │
   │ Independent Variables:         │
   │ ☑ INCOME, CRIME, DIST_CBD     │
   │                                │
   │ Model Type:                    │
   │ ◉ Spatial Lag                  │
   │                                │
   │ Weights: [queen_w1.gal ▼]      │
   │                                │
   │ [Run]  [Cancel]                │
   └────────────────────────────────┘
   
3. 点击 "Run"

步骤5：解读SLM结果

复制代码

─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL LAG MODEL
─────────────────────────────────────────
Summary Statistics:
R-squared: 0.723
Log-likelihood: -234.56
AIC: 479.12
SC: 491.34

Coefficients:
─────────────────────────────────────────
Variable    Coef      Std Err   t-stat   p-value
─────────────────────────────────────────
W_PRICE    0.425     0.089     4.775    0.0000 ***
INCOME     0.856     0.123     6.959    0.0000 ***
CRIME     -0.234     0.067    -3.493    0.0005 ***
DIST_CBD  -0.178     0.045    -3.956    0.0001 ***
CONSTANT  45.678     8.234     5.548    0.0000 ***
─────────────────────────────────────────
W_PRICE = Spatial autoregressive coefficient (ρ)

Spatial Diagnostics:
LR test (ρ=0): 18.45  p = 0.0000 ***
─────────────────────────────────────────

解读：
1. ρ = 0.425 > 0 且显著：存在正向空间溢出
2. 邻居房价每增加1单位，本区域房价增加0.425单位
3. R² = 0.723：模型解释了72.3%的方差
4. LR检验显著：SLM优于OLS

2.5 直接效应与间接效应

复制代码

由于空间滞后存在反馈效应，需要区分：

直接效应（Direct Effect）：
- 本区域自变量对因变量的影响
- 包含反馈效应

间接效应（Indirect Effect）/ 空间溢出效应：
- 邻居自变量对本区域因变量的影响

总效应（Total Effect）：
- 直接效应 + 间接效应

GeoDa计算效应

复制代码

SLM结果窗口 → Effects → Impact Measures

显示：
──────────────────────────────────
Variable    Direct   Indirect   Total
──────────────────────────────────
INCOME     0.923     0.534     1.457
CRIME     -0.252    -0.146     0.398
DIST_CBD  -0.192    -0.111    -0.303
──────────────────────────────────

解读INCOME：
- 直接效应0.923：本区域收入增加1单位，房价增加0.923
- 间接效应0.534：邻居收入增加1单位，本区域房价增加0.534
- 总效应1.457：收入增加1单位的总体影响

3. 空间误差模型（SEM）

3.1 模型形式

空间误差模型（Spatial Error Model, SEM）：

复制代码

y = Xβ + u
u = λWu + ε

合并后：
y = Xβ + (I - λW)⁻¹ε

其中：
λ = 空间误差系数（-1 < λ < 1）
u = 空间相关的误差项
ε = 独立同分布误差项

3.2 解释

复制代码

SEM假设误差项存在空间依赖性

可能原因：
1. 遗漏变量存在空间自相关
2. 测量误差的空间模式
3. 未观测到的空间过程

3.3 SLM vs SEM

特性	SLM	SEM
空间依赖位置	因变量	误差项
理论机制	真实的空间互动	遗漏变量/测量误差
政策含义	邻里效应	改善测量/控制变量
溢出效应	有（需要计算）	无

3.4 GeoDa操作

步骤1：运行SEM

复制代码

1. Methods → Regression

2. 设置：
   
   ┌────────────────────────────────┐
   │ Regression Setup               │
   ├────────────────────────────────┤
   │ Model Type:                    │
   │ ◉ Spatial Error                │
   │                                │
   │ Weights: [queen_w1.gal ▼]      │
   │                                │
   │ [Run]  [Cancel]                │
   └────────────────────────────────┘

步骤2：解读SEM结果

复制代码

─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL ERROR MODEL
─────────────────────────────────────────
Summary Statistics:
R-squared: 0.698
Log-likelihood: -238.12
AIC: 486.24
SC: 498.46

Coefficients:
─────────────────────────────────────────
Variable    Coef      Std Err   z-value   p-value
─────────────────────────────────────────
INCOME     0.812     0.118     6.881     0.0000 ***
CRIME     -0.256     0.071    -3.606     0.0003 ***
DIST_CBD  -0.165     0.048    -3.438     0.0006 ***
CONSTANT  48.234     9.127     5.286     0.0000 ***
─────────────────────────────────────────
Lambda (λ) = 0.512
Std Err = 0.098
z-value = 5.224
p-value = 0.0000 ***

LR test (λ=0): 11.34  p = 0.0008 ***
─────────────────────────────────────────

解读：
1. λ = 0.512 > 0 且显著：误差项存在正空间自相关
2. 可能存在遗漏的空间相关变量
3. LR检验显著：SEM优于OLS

4. 空间杜宾模型（SDM）

4.1 模型形式

空间杜宾模型（Spatial Durbin Model, SDM）：

复制代码

y = ρWy + Xβ + WXθ + ε

包含：
- 因变量的空间滞后 Wy（系数ρ）
- 自变量的空间滞后 WX（系数θ）

4.2 特点

复制代码

SDM是最一般的空间模型：

1. 当 θ = 0 时，退化为SLM
2. 当 θ = -ρβ 时，退化为SEM
3. 可以捕捉更复杂的空间互动

优势：
- 包含自变量的空间溢出
- 更灵活的模型设定
- 减少遗漏变量偏误

4.3 GeoDa操作

运行SDM

复制代码

1. Methods → Regression

2. 设置：
   
   ┌────────────────────────────────┐
   │ Regression Setup               │
   ├────────────────────────────────┤
   │ Model Type:                    │
   │ ◉ Spatial Durbin               │
   │                                │
   │ Weights: [queen_w1.gal ▼]      │
   │                                │
   │ ☑ Add Spatial Lag of X         │
   │                                │
   │ [Run]  [Cancel]                │
   └────────────────────────────────┘

解读SDM结果

复制代码

─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL DURBIN MODEL
─────────────────────────────────────────
Coefficients:
─────────────────────────────────────────
Variable         Coef      Std Err   t-stat   p-value
─────────────────────────────────────────
W_PRICE (ρ)     0.385     0.092     4.185    0.0000 ***
INCOME          0.823     0.125     6.584    0.0000 ***
CRIME          -0.245     0.069    -3.551    0.0004 ***
DIST_CBD       -0.182     0.047    -3.872    0.0001 ***
─────────────────────────────────────────
W_INCOME (θ)    0.312     0.145     2.152    0.0314 *
W_CRIME (θ)    -0.178     0.089    -2.000    0.0455 *
W_DIST_CBD (θ) -0.095     0.062    -1.532    0.1256
─────────────────────────────────────────
CONSTANT       42.567     9.234     4.611    0.0000 ***
─────────────────────────────────────────

解读：
1. W_INCOME = 0.312 > 0：邻居收入对本区域房价有正向影响
2. W_CRIME = -0.178 < 0：邻居犯罪率对本区域房价有负向影响
3. θ系数显著 → SDM优于SLM

4.4 模型检验

LR检验（SDM vs SLM）

复制代码

H₀: θ = 0（SLM更优）
H₁: θ ≠ 0（SDM更优）

LR test: 8.56
p-value: 0.014 *

结论：拒绝H₀，SDM优于SLM

LR检验（SDM vs SEM）

复制代码

H₀: θ = -ρβ（SEM更优）
H₁: θ ≠ -ρβ（SDM更优）

LR test: 6.23
p-value: 0.044 *

结论：拒绝H₀，SDM优于SEM

5. 模型选择策略

5.1 Elhorst选择流程

复制代码

步骤1：运行OLS回归

步骤2：检验空间依赖性
├─ LM(lag)不显著 且 LM(error)不显著
│  → 使用OLS
│
├─ LM(lag)显著 且/或 LM(error)显著
│  │
│  ├─ 只有LM(lag)显著
│  │  → 使用SLM
│  │
│  ├─ 只有LM(error)显著
│  │  → 使用SEM
│  │
│  └─ 两者都显著
│     ├─ Robust LM(lag)显著
│     │  → 使用SLM
│     │
│     ├─ Robust LM(error)显著
│     │  → 使用SEM
│     │
│     └─ 两者都显著
│        → 运行SDM，做LR检验

5.2 基于信息准则选择

复制代码

比较AIC/BIC：

模型        AIC      BIC
─────────────────────────
OLS        512.34   524.56
SLM        479.12   491.34
SEM        486.24   498.46
SDM        472.45   496.89

选择规则：
- AIC/BIC越小越好
- SDM的AIC最小 → 选择SDM

5.3 理论驱动的选择

理论机制	推荐模型	理由
邻里效应	SLM	相邻单元直接互动
知识溢出	SDM	自变量和因变量都有溢出
遗漏变量	SEM	控制未观测的空间相关
测量误差	SEM	误差项的空间模式
不确定	SDM	最一般模型，减少偏误

6. 地理加权回归（GWR）

6.1 概念

地理加权回归（Geographically Weighted Regression, GWR） 是一种局部回归方法，允许回归系数在空间上变化。

复制代码

全局回归：
y_i = β₀ + β₁x₁ᵢ + β₂x₂ᵢ + εᵢ
（β对所有位置相同）

GWR：
y_i = β₀(uᵢ,vᵢ) + β₁(uᵢ,vᵢ)x₁ᵢ + β₂(uᵢ,vᵢ)x₂ᵢ + εᵢ
（β随位置(u,v)变化）

6.2 权重函数

GWR使用核函数对邻近观测赋予更高权重：

固定带宽（Fixed Bandwidth）

复制代码

所有位置使用相同的带宽h

高斯核：
wᵢⱼ = exp(-dᵢⱼ² / 2h²)

其中：
dᵢⱼ = 位置i和j的距离
h = 带宽参数

自适应带宽（Adaptive Bandwidth）

复制代码

每个位置选择固定数量的最近邻

bi-square核：
wᵢⱼ = [1 - (dᵢⱼ/dᵢ^(k))²]²  if dᵢⱼ < dᵢ^(k)
wᵢⱼ = 0                        otherwise

其中：
dᵢ^(k) = 位置i到第k个最近邻的距离

6.3 带宽选择

交叉验证法（CV）

复制代码

CV(h) = Σᵢ [yᵢ - ŷ_≠ᵢ(h)]²

选择h使CV(h)最小

ŷ_≠ᵢ(h) = 排除位置i后的GWR预测值

AIC准则

复制代码

AIC(h) = n × ln(RSS/n) + n × ln(2π) + n + tr(S)

其中：
tr(S) = GWR帽子矩阵的迹（有效参数数量）

选择h使AIC(h)最小

6.4 GeoDa操作

步骤1：运行GWR

复制代码

1. Methods → GWR

2. 设置变量：
   
   ┌────────────────────────────────┐
   │ GWR Setup                      │
   ├────────────────────────────────┤
   │ Dependent Variable: [PRICE]    │
   │ Independent Variables:         │
   │ ☑ INCOME, CRIME, DIST_CBD     │
   │                                │
   │ Bandwidth Type:                │
   │ ◉ Adaptive                    │
   │ ○ Fixed                       │
   │                                │
   │ Kernel Function:               │
   │ ◉ Bi-square                   │
   │ ○ Gaussian                    │
   │                                │
   │ Bandwidth Selection:           │
   │ ◉ AICc                        │
   │ ○ CV                          │
   │                                │
   │ [Run]  [Cancel]                │
   └────────────────────────────────┘

步骤2：查看GWR结果

复制代码

─────────────────────────────────────────
GWR RESULTS
─────────────────────────────────────────
Bandwidth: 45 (adaptive, bi-square)
Kernel: Adaptive bi-square

Summary of Local Coefficients:
─────────────────────────────────────────
Variable     Min      Mean     Max     Std
─────────────────────────────────────────
INCOME      0.512    0.834    1.245   0.156
CRIME      -0.412   -0.256   -0.123   0.068
DIST_CBD   -0.289   -0.178   -0.089   0.047
─────────────────────────────────────────

Global R-squared: 0.723
Local R-squared: Mean = 0.756, Min = 0.612, Max = 0.834

─────────────────────────────────────────

解读：
1. INCOME系数范围[0.512, 1.245]：收入对房价的影响存在空间异质性
2. 局部R²均值0.756 > 全局R² 0.723：GWR拟合更好
3. 可以绘制系数的空间分布图

步骤3：可视化GWR系数

复制代码

GWR结果窗口 → Maps → Coefficient Maps

显示：
- INCOME系数空间分布图
- CRIME系数空间分布图
- DIST_CBD系数空间分布图
- 局部R²空间分布图

发现：
- 市中心：INCOME系数较小（房价对收入不敏感）
- 郊区：INCOME系数较大（房价对收入敏感）

6.5 GWR vs 全局空间模型

特性	全局模型（SLM/SEM）	GWR
系数	全局常数	局部变化
空间异质性	无法捕捉	可以捕捉
空间依赖	通过W建模	通过权重函数
解释	全局平均效应	局部空间模式
预测	全局预测	局部预测

6.6 GWR局限

复制代码

1. 计算量大（n²复杂度）
2. 过度拟合风险（大量参数）
3. 多重共线性（局部样本少）
4. 无法同时建模空间依赖和空间异质性

7. 实战案例

案例1：房价决定因素分析

研究问题

复制代码

研究区域：某市200个街区
研究问题：房价的空间决定因素及溢出效应

数据

复制代码

因变量：
- PRICE：房价（元/平方米）

自变量：
- INCOME：家庭收入（万元）
- CRIME：犯罪率（件/千人）
- DIST_CBD：到CBD距离（km）
- GREEN：绿地覆盖率（%）
- SCHOOL：学区评分（1-10）

分析步骤

步骤1：探索性分析

复制代码

1. 绘制房价分位数地图
   Map → Quantile Map → PRICE

   发现：房价呈明显的空间聚集模式

2. 全局Moran's I
   Space → Univariate Moran's I → PRICE
   
   结果：I = 0.672, p < 0.001
   结论：房价存在显著空间自相关

步骤2：OLS回归

复制代码

Methods → Regression → Classic

结果：
─────────────────────────────────────────
Variable    Coef      Std Err   t-stat   p-value
─────────────────────────────────────────
INCOME     0.856     0.112     7.643    0.0000 ***
CRIME     -0.234     0.065    -3.600    0.0004 ***
DIST_CBD  -0.178     0.042    -4.238    0.0000 ***
GREEN      0.089     0.034     2.618    0.0094 **
SCHOOL     0.156     0.048     3.250    0.0013 **
CONSTANT  25.678     6.234     4.118    0.0001 ***
─────────────────────────────────────────
R-squared: 0.654

Spatial Diagnostics:
LM(lag) = 23.45, p = 0.0000 ***
LM(error) = 18.23, p = 0.0000 ***
Robust LM(lag) = 8.56, p = 0.0034 **
Robust LM(error) = 3.34, p = 0.0676
─────────────────────────────────────────

诊断：
- 空间依赖性显著
- Robust LM(lag)显著 → 优先考虑SLM

步骤3：空间滞后模型（SLM）

复制代码

Methods → Regression → Spatial Lag

结果：
─────────────────────────────────────────
Variable    Coef      Std Err   t-stat   p-value
─────────────────────────────────────────
W_PRICE    0.425     0.085     5.000    0.0000 ***
INCOME     0.812     0.108     7.519    0.0000 ***
CRIME     -0.225     0.062    -3.629    0.0003 ***
DIST_CBD  -0.168     0.040    -4.200    0.0000 ***
GREEN      0.085     0.032     2.656    0.0079 **
SCHOOL     0.148     0.045     3.289    0.0010 **
CONSTANT  18.456     6.012     3.071    0.0021 **
─────────────────────────────────────────
R-squared: 0.723
LR test (ρ=0): 18.34, p = 0.0000 ***

Effects:
Variable    Direct   Indirect   Total
──────────────────────────────────
INCOME     0.876     0.523     1.399
CRIME     -0.243    -0.145    -0.388
──────────────────────────────────

解读：
1. ρ = 0.425：邻居房价每增加1%，本区域房价增加0.425%
2. INCOME直接效应0.876：本区域收入增加1万，房价增加876元/m²
3. INCOME间接效应0.523：邻居收入增加1万，本区域房价增加523元/m²
4. R²提升至0.723，SLM优于OLS

步骤4：空间杜宾模型（SDM）

复制代码

Methods → Regression → Spatial Durbin

结果：
─────────────────────────────────────────
Variable         Coef      t-stat   p-value
─────────────────────────────────────────
W_PRICE (ρ)     0.385     4.523    0.0000 ***
INCOME          0.798     7.156    0.0000 ***
CRIME          -0.218    -3.412    0.0006 ***
DIST_CBD       -0.172    -4.012    0.0001 ***
GREEN           0.082     2.512    0.0120 *
SCHOOL          0.142     3.089    0.0020 **
─────────────────────────────────────────
W_INCOME        0.285     2.156    0.0311 *
W_CRIME        -0.165    -2.012    0.0442 *
W_DIST_CBD     -0.088    -1.456    0.1456
W_GREEN         0.065     1.234    0.2171
W_SCHOOL        0.112     1.567    0.1171
─────────────────────────────────────────
R-squared: 0.738

LR test (SDM vs SLM): 6.78, p = 0.234
─────────────────────────────────────────

诊断：
- LR检验不显著 → SLM可能足够
- 但W_INCOME和W_CRIME显著 → 空间溢出存在

步骤5：地理加权回归（GWR）

复制代码

Methods → GWR

结果：
─────────────────────────────────────────
Summary of Local Coefficients:
Variable     Min      Mean     Max     Std
─────────────────────────────────────────
INCOME      0.512    0.815    1.345   0.178
CRIME      -0.412   -0.225   -0.089   0.078
DIST_CBD   -0.289   -0.168   -0.067   0.052
─────────────────────────────────────────
Local R-squared: Mean = 0.762

发现：
1. INCOME系数变化最大（标准差0.178）
   - 市中心：系数较小（≈0.6）
   - 郊区：系数较大（≈1.2）
   → 郊区房价对收入更敏感

2. CRIME系数也有空间变化
   - 北部：影响较大（≈-0.35）
   - 南部：影响较小（≈-0.15）

最终模型选择

复制代码

综合考虑：

1. 理论机制：
   - 房价存在邻里效应 → SLM/SDM
   - 自变量溢出存在 → SDM

2. 统计检验：
   - Robust LM(lag)显著 → SLM/SDM
   - LR检验不显著 → SLM足够

3. 拟合优度：
   - SLM R² = 0.723
   - SDM R² = 0.738（提升有限）
   - GWR Local R² = 0.762（最高）

推荐模型：
- 主要分析：SLM（简洁，易解释）
- 补充分析：GWR（探索空间异质性）

政策建议

复制代码

基于SLM结果：

1. 空间溢出效应（ρ = 0.425）：
   - 房价政策需考虑区域协调
   - 单个街区的改善会带动周边

2. 收入效应（直接0.876 + 间接0.523 = 1.399）：
   - 提高居民收入是提升房价的根本
   - 邻居收入提升也会带动本区域房价

3. 犯罪率（直接-0.243 + 间接-0.145 = -0.388）：
   - 降低犯罪率对房价有显著正向影响
   - 治安改善存在空间溢出

4. 学区（0.148）：
   - 教育资源对房价影响显著
   - 学区房政策需谨慎制定

案例2：经济增长收敛性分析

研究问题

复制代码

研究区域：中国31个省份
研究问题：经济增长是否存在β收敛？
         （落后地区增长是否更快？）

模型设定

复制代码

β收敛模型：
ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) = α + β × ln(yᵢ,ₜ) + εᵢ

其中：
yᵢ,ₜ = 省份i在t年的人均GDP
yᵢ,ₜ₊ₜ = 省份i在t+T年的人均GDP
β < 0 → 存在收敛

考虑空间效应：
ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) = α + β × ln(yᵢ,ₜ) + ρ × W × ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) + εᵢ

GeoDa分析

复制代码

1. 数据准备
   - 计算1990-2020年人均GDP增长率
   - 创建省份邻接权重

2. OLS回归
   β = -0.023, p = 0.056（边缘显著）
   LM(lag) = 5.67, p = 0.017 *
   
3. SLM回归
   β = -0.031, p = 0.012 *
   ρ = 0.312, p = 0.023 *
   
结论：
- 考虑空间效应后，β收敛显著
- 存在正向空间溢出（ρ = 0.312）
- 落后省份增长更快，但受邻居影响

8. 结果报告撰写

8.1 标准报告结构

markdown 复制代码

## 空间回归分析结果

### 1. 模型选择

**空间依赖性诊断**：
- LM(lag) = 23.45, p < 0.001
- LM(error) = 18.23, p < 0.001
- Robust LM(lag) = 8.56, p = 0.003
- Robust LM(error) = 3.34, p = 0.068

**模型选择**：基于Robust LM检验，选择空间滞后模型（SLM）

### 2. 回归结果

**SLM估计结果**：

| 变量 | 系数 | 标准误 | t值 | p值 | 直接效应 | 间接效应 | 总效应 |
|------|------|--------|-----|-----|----------|----------|--------|
| ρ | 0.425 | 0.085 | 5.00 | 0.000 | - | - | - |
| INCOME | 0.812 | 0.108 | 7.52 | 0.000 | 0.876 | 0.523 | 1.399 |
| CRIME | -0.225 | 0.062 | -3.63 | 0.000 | -0.243 | -0.145 | -0.388 |

**模型拟合**：
- R² = 0.723
- LR test (ρ=0) = 18.34, p < 0.001

### 3. 主要发现

1. **空间溢出效应显著**（ρ = 0.425, p < 0.001）
   - 邻居房价每增加1%，本区域房价增加0.425%

2. **收入对房价有正向影响**
   - 直接效应：0.876
   - 间接效应：0.523
   - 总效应：1.399

3. **犯罪率对房价有负向影响**
   - 直接效应：-0.243
   - 间接效应：-0.145

### 4. 政策建议

基于空间回归结果，建议：
1. 制定区域协调的房价调控政策
2. 通过提高收入水平提升房价
3. 加强治安管理，降低犯罪率

9. 常见问题

Q1: OLS和SLM的系数可以比较吗？

复制代码

不能直接比较！

原因：
1. SLM的系数解释不同（包含空间反馈）
2. SLM应看直接效应，而非原始系数

正确做法：
- SLM报告直接效应、间接效应
- OLS系数 ≈ SLM直接效应（如果ρ较小）

Q2: ρ值很大（>0.8）怎么办？

复制代码

可能问题：
1. 空间权重矩阵设定不当
2. 数据存在高度空间依赖
3. 变量选择问题

解决方案：
1. 检查权重矩阵（尝试不同类型）
2. 增加控制变量
3. 考虑变量变换（对数、差分）

Q3: 如何处理负的ρ值？

复制代码

ρ < 0 可能原因：
1. 竞争效应（邻居高，本区域低）
2. 替代效应
3. 数据问题

例子：
- 商业中心竞争（ρ < 0正常）
- 房价（通常ρ > 0，如果ρ < 0需检查）

Q4: GWR结果如何汇总？

复制代码

GWR产生大量局部系数，汇总方法：

1. 描述性统计（Min, Mean, Max, Std）
2. 绘制系数空间分布图
3. 识别系数极端值区域
4. 结合专业知识解释空间变化

10. 小结

空间回归分析是处理空间数据的核心方法。

关键要点：

OLS假设不适用于空间数据
SLM捕捉因变量的空间依赖
SEM捕捉误差项的空间依赖
SDM是最一般的空间模型
GWR捕捉空间异质性
模型选择需结合统计检验和理论机制
关注直接效应和间接效应

最佳实践：

先运行OLS诊断空间依赖
使用LM检验选择模型
报告直接效应和间接效应
结合GWR探索空间异质性
图表结合，增强可读性

附录：数学推导

SLM的简化形式

复制代码

y = ρWy + Xβ + ε

(I - ρW)y = Xβ + ε

y = (I - ρW)⁻¹Xβ + (I - ρW)⁻¹ε

空间乘数：M = (I - ρW)⁻¹ = I + ρW + ρ²W² + ρ³W³ + ...

总效应 = M × β
直接效应 = diag(M) × β
间接效应 = (M - I) × β

SEM的ML估计

复制代码

对数似然函数：
ln L = -n/2 ln(2π) - 1/2 ln|Ω| - 1/2 e'Ω⁻¹e

其中：
Ω = σ²(I - λW)⁻¹(I - λW')⁻¹
e = y - Xβ

通过数值优化求解

GWR的局部估计

复制代码

对于位置i，加权最小二乘：

β̂(i) = (X'W(i)X)⁻¹X'W(i)y

其中：
W(i) = diag(wᵢ₁, wᵢ₂, ..., wᵢₙ)
wᵢⱼ = 核函数（位置j到位置i的距离）