GeoDa 空间回归分析
前置知识 :[[GeoDa空间自相关分析]]
难度等级 :⭐⭐⭐⭐⭐
更新日期:2026-03-16
📋 目录
- [1. 空间回归基础](#1. 空间回归基础)
- [2. 空间滞后模型(SLM)](#2. 空间滞后模型(SLM))
- [3. 空间误差模型(SEM)](#3. 空间误差模型(SEM))
- [4. 空间杜宾模型(SDM)](#4. 空间杜宾模型(SDM))
- [5. 模型选择策略](#5. 模型选择策略)
- [6. 地理加权回归(GWR)](#6. 地理加权回归(GWR))
- [7. 实战案例](#7. 实战案例)
1. 空间回归基础
1.1 为什么需要空间回归?
传统OLS回归的假设
经典线性回归(OLS)假设:
- 观测值相互独立
- 误差项独立同分布(i.i.d.)
- 无空间依赖性
空间数据的挑战
问题1:空间依赖性(Spatial Dependence)
- Tobler地理学第一定律
- 相邻区域的变量值相关
- 违背独立性假设
问题2:空间异质性(Spatial Heterogeneity)
- 关系在不同位置可能不同
- 全局模型可能掩盖局部模式
后果
使用OLS处理空间数据可能导致:
1. 参数估计有偏(Bias)
2. 标准误估计错误(Inefficient)
3. 统计推断失效(Invalid inference)
4. 预测不准确
1.2 空间回归模型分类
空间回归模型
│
├─ 空间滞后模型(SLM/SAR)
│ └─ 因变量的空间依赖
│
├─ 空间误差模型(SEM)
│ └─ 误差项的空间依赖
│
├─ 空间杜宾模型(SDM)
│ └─ 包含因变量和自变量的空间滞后
│
├─ 空间杜宾误差模型(SDEM)
│ └─ 包含自变量的空间滞后和空间误差
│
└─ 地理加权回归(GWR)
└─ 局部回归模型
1.3 空间计量模型符号
| 符号 | 含义 |
|---|---|
| W | 空间权重矩阵 |
| Wy | 因变量的空间滞后 |
| Wε | 误差项的空间滞后 |
| WX | 自变量的空间滞后 |
| ρ (rho) | 空间自回归系数 |
| λ (lambda) | 空间误差系数 |
| β | 回归系数 |
| θ | 自变量空间滞后系数 |
2. 空间滞后模型(SLM)
2.1 模型形式
空间滞后模型(Spatial Lag Model, SLM),也称为空间自回归模型(SAR):
y = ρWy + Xβ + ε
其中:
y = n×1 因变量向量
X = n×k 自变量矩阵
W = n×n 空间权重矩阵
ρ = 空间自回归系数(-1 < ρ < 1)
β = k×1 回归系数向量
ε = n×1 误差项向量
2.2 经济学解释
ρWy 表示因变量的空间滞后(邻居的平均值)
例子:房价空间滞后模型
PRICE_i = ρ × (邻居的平均房价) + β₁ × INCOME_i + β₂ × AREA_i + ε_i
解释:
- 本区域房价受邻居房价影响
- ρ > 0:邻居房价高,本区域房价也高(正向溢出)
- ρ < 0:邻居房价高,本区域房价低(竞争效应)
2.3 适用场景
| 应用领域 | 研究问题 | ρ的含义 |
|---|---|---|
| 房地产 | 房价空间溢出 | 邻里效应强度 |
| 经济增长 | 区域经济收敛 | 知识溢出效应 |
| 犯罪学 | 犯罪空间扩散 | 犯罪传染性 |
| 疫情分析 | 疫情传播 | 传播速度 |
2.4 GeoDa操作步骤
步骤1:数据准备
1. 加载数据
File → Open → data.shp
2. 检查空间自相关
Space → Univariate Moran's I
(如果因变量存在空间自相关,考虑SLM)
步骤2:运行OLS回归(基准模型)
1. Methods → Regression
2. 设置变量:
┌────────────────────────────────┐
│ Regression Setup │
├────────────────────────────────┤
│ Dependent Variable: │
│ [PRICE ▼] │
│ │
│ Independent Variables: │
│ ☑ INCOME │
│ ☑ CRIME │
│ ☑ DIST_CBD │
│ │
│ Model Type: │
│ ◉ Classic (OLS) │
│ │
│ [Run] [Cancel] │
└────────────────────────────────┘
3. 查看OLS结果并保存
步骤3:诊断空间依赖性
OLS结果窗口查看:
Spatial Diagnostics:
─────────────────────────────────
Lagrange Multiplier (lag) = 12.45 p = 0.0004 ***
Lagrange Multiplier (error) = 8.23 p = 0.0041 **
Robust LM (lag) = 5.67 p = 0.0172 *
Robust LM (error) = 1.45 p = 0.2285
─────────────────────────────────
解读:
- LM(lag)显著 → 考虑SLM
- LM(error)显著 → 考虑SEM
- 如果都显著,看Robust LM
- Robust LM(lag)显著 → 选择SLM
步骤4:运行SLM
1. Methods → Regression
2. 设置:
┌────────────────────────────────┐
│ Regression Setup │
├────────────────────────────────┤
│ Dependent Variable: [PRICE] │
│ Independent Variables: │
│ ☑ INCOME, CRIME, DIST_CBD │
│ │
│ Model Type: │
│ ◉ Spatial Lag │
│ │
│ Weights: [queen_w1.gal ▼] │
│ │
│ [Run] [Cancel] │
└────────────────────────────────┘
3. 点击 "Run"
步骤5:解读SLM结果
─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL LAG MODEL
─────────────────────────────────────────
Summary Statistics:
R-squared: 0.723
Log-likelihood: -234.56
AIC: 479.12
SC: 491.34
Coefficients:
─────────────────────────────────────────
Variable Coef Std Err t-stat p-value
─────────────────────────────────────────
W_PRICE 0.425 0.089 4.775 0.0000 ***
INCOME 0.856 0.123 6.959 0.0000 ***
CRIME -0.234 0.067 -3.493 0.0005 ***
DIST_CBD -0.178 0.045 -3.956 0.0001 ***
CONSTANT 45.678 8.234 5.548 0.0000 ***
─────────────────────────────────────────
W_PRICE = Spatial autoregressive coefficient (ρ)
Spatial Diagnostics:
LR test (ρ=0): 18.45 p = 0.0000 ***
─────────────────────────────────────────
解读:
1. ρ = 0.425 > 0 且显著:存在正向空间溢出
2. 邻居房价每增加1单位,本区域房价增加0.425单位
3. R² = 0.723:模型解释了72.3%的方差
4. LR检验显著:SLM优于OLS
2.5 直接效应与间接效应
由于空间滞后存在反馈效应,需要区分:
直接效应(Direct Effect):
- 本区域自变量对因变量的影响
- 包含反馈效应
间接效应(Indirect Effect)/ 空间溢出效应:
- 邻居自变量对本区域因变量的影响
总效应(Total Effect):
- 直接效应 + 间接效应
GeoDa计算效应
SLM结果窗口 → Effects → Impact Measures
显示:
──────────────────────────────────
Variable Direct Indirect Total
──────────────────────────────────
INCOME 0.923 0.534 1.457
CRIME -0.252 -0.146 0.398
DIST_CBD -0.192 -0.111 -0.303
──────────────────────────────────
解读INCOME:
- 直接效应0.923:本区域收入增加1单位,房价增加0.923
- 间接效应0.534:邻居收入增加1单位,本区域房价增加0.534
- 总效应1.457:收入增加1单位的总体影响
3. 空间误差模型(SEM)
3.1 模型形式
空间误差模型(Spatial Error Model, SEM):
y = Xβ + u
u = λWu + ε
合并后:
y = Xβ + (I - λW)⁻¹ε
其中:
λ = 空间误差系数(-1 < λ < 1)
u = 空间相关的误差项
ε = 独立同分布误差项
3.2 解释
SEM假设误差项存在空间依赖性
可能原因:
1. 遗漏变量存在空间自相关
2. 测量误差的空间模式
3. 未观测到的空间过程
3.3 SLM vs SEM
| 特性 | SLM | SEM |
|---|---|---|
| 空间依赖位置 | 因变量 | 误差项 |
| 理论机制 | 真实的空间互动 | 遗漏变量/测量误差 |
| 政策含义 | 邻里效应 | 改善测量/控制变量 |
| 溢出效应 | 有(需要计算) | 无 |
3.4 GeoDa操作
步骤1:运行SEM
1. Methods → Regression
2. 设置:
┌────────────────────────────────┐
│ Regression Setup │
├────────────────────────────────┤
│ Model Type: │
│ ◉ Spatial Error │
│ │
│ Weights: [queen_w1.gal ▼] │
│ │
│ [Run] [Cancel] │
└────────────────────────────────┘
步骤2:解读SEM结果
─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL ERROR MODEL
─────────────────────────────────────────
Summary Statistics:
R-squared: 0.698
Log-likelihood: -238.12
AIC: 486.24
SC: 498.46
Coefficients:
─────────────────────────────────────────
Variable Coef Std Err z-value p-value
─────────────────────────────────────────
INCOME 0.812 0.118 6.881 0.0000 ***
CRIME -0.256 0.071 -3.606 0.0003 ***
DIST_CBD -0.165 0.048 -3.438 0.0006 ***
CONSTANT 48.234 9.127 5.286 0.0000 ***
─────────────────────────────────────────
Lambda (λ) = 0.512
Std Err = 0.098
z-value = 5.224
p-value = 0.0000 ***
LR test (λ=0): 11.34 p = 0.0008 ***
─────────────────────────────────────────
解读:
1. λ = 0.512 > 0 且显著:误差项存在正空间自相关
2. 可能存在遗漏的空间相关变量
3. LR检验显著:SEM优于OLS
4. 空间杜宾模型(SDM)
4.1 模型形式
空间杜宾模型(Spatial Durbin Model, SDM):
y = ρWy + Xβ + WXθ + ε
包含:
- 因变量的空间滞后 Wy(系数ρ)
- 自变量的空间滞后 WX(系数θ)
4.2 特点
SDM是最一般的空间模型:
1. 当 θ = 0 时,退化为SLM
2. 当 θ = -ρβ 时,退化为SEM
3. 可以捕捉更复杂的空间互动
优势:
- 包含自变量的空间溢出
- 更灵活的模型设定
- 减少遗漏变量偏误
4.3 GeoDa操作
运行SDM
1. Methods → Regression
2. 设置:
┌────────────────────────────────┐
│ Regression Setup │
├────────────────────────────────┤
│ Model Type: │
│ ◉ Spatial Durbin │
│ │
│ Weights: [queen_w1.gal ▼] │
│ │
│ ☑ Add Spatial Lag of X │
│ │
│ [Run] [Cancel] │
└────────────────────────────────┘
解读SDM结果
─────────────────────────────────────────
REGRESSION RESULTS: SPATIAL DURBIN MODEL
─────────────────────────────────────────
Coefficients:
─────────────────────────────────────────
Variable Coef Std Err t-stat p-value
─────────────────────────────────────────
W_PRICE (ρ) 0.385 0.092 4.185 0.0000 ***
INCOME 0.823 0.125 6.584 0.0000 ***
CRIME -0.245 0.069 -3.551 0.0004 ***
DIST_CBD -0.182 0.047 -3.872 0.0001 ***
─────────────────────────────────────────
W_INCOME (θ) 0.312 0.145 2.152 0.0314 *
W_CRIME (θ) -0.178 0.089 -2.000 0.0455 *
W_DIST_CBD (θ) -0.095 0.062 -1.532 0.1256
─────────────────────────────────────────
CONSTANT 42.567 9.234 4.611 0.0000 ***
─────────────────────────────────────────
解读:
1. W_INCOME = 0.312 > 0:邻居收入对本区域房价有正向影响
2. W_CRIME = -0.178 < 0:邻居犯罪率对本区域房价有负向影响
3. θ系数显著 → SDM优于SLM
4.4 模型检验
LR检验(SDM vs SLM)
H₀: θ = 0(SLM更优)
H₁: θ ≠ 0(SDM更优)
LR test: 8.56
p-value: 0.014 *
结论:拒绝H₀,SDM优于SLM
LR检验(SDM vs SEM)
H₀: θ = -ρβ(SEM更优)
H₁: θ ≠ -ρβ(SDM更优)
LR test: 6.23
p-value: 0.044 *
结论:拒绝H₀,SDM优于SEM
5. 模型选择策略
5.1 Elhorst选择流程
步骤1:运行OLS回归
步骤2:检验空间依赖性
├─ LM(lag)不显著 且 LM(error)不显著
│ → 使用OLS
│
├─ LM(lag)显著 且/或 LM(error)显著
│ │
│ ├─ 只有LM(lag)显著
│ │ → 使用SLM
│ │
│ ├─ 只有LM(error)显著
│ │ → 使用SEM
│ │
│ └─ 两者都显著
│ ├─ Robust LM(lag)显著
│ │ → 使用SLM
│ │
│ ├─ Robust LM(error)显著
│ │ → 使用SEM
│ │
│ └─ 两者都显著
│ → 运行SDM,做LR检验
5.2 基于信息准则选择
比较AIC/BIC:
模型 AIC BIC
─────────────────────────
OLS 512.34 524.56
SLM 479.12 491.34
SEM 486.24 498.46
SDM 472.45 496.89
选择规则:
- AIC/BIC越小越好
- SDM的AIC最小 → 选择SDM
5.3 理论驱动的选择
| 理论机制 | 推荐模型 | 理由 |
|---|---|---|
| 邻里效应 | SLM | 相邻单元直接互动 |
| 知识溢出 | SDM | 自变量和因变量都有溢出 |
| 遗漏变量 | SEM | 控制未观测的空间相关 |
| 测量误差 | SEM | 误差项的空间模式 |
| 不确定 | SDM | 最一般模型,减少偏误 |
6. 地理加权回归(GWR)
6.1 概念
地理加权回归(Geographically Weighted Regression, GWR) 是一种局部回归方法,允许回归系数在空间上变化。
全局回归:
y_i = β₀ + β₁x₁ᵢ + β₂x₂ᵢ + εᵢ
(β对所有位置相同)
GWR:
y_i = β₀(uᵢ,vᵢ) + β₁(uᵢ,vᵢ)x₁ᵢ + β₂(uᵢ,vᵢ)x₂ᵢ + εᵢ
(β随位置(u,v)变化)
6.2 权重函数
GWR使用核函数对邻近观测赋予更高权重:
固定带宽(Fixed Bandwidth)
所有位置使用相同的带宽h
高斯核:
wᵢⱼ = exp(-dᵢⱼ² / 2h²)
其中:
dᵢⱼ = 位置i和j的距离
h = 带宽参数
自适应带宽(Adaptive Bandwidth)
每个位置选择固定数量的最近邻
bi-square核:
wᵢⱼ = [1 - (dᵢⱼ/dᵢ^(k))²]² if dᵢⱼ < dᵢ^(k)
wᵢⱼ = 0 otherwise
其中:
dᵢ^(k) = 位置i到第k个最近邻的距离
6.3 带宽选择
交叉验证法(CV)
CV(h) = Σᵢ [yᵢ - ŷ_≠ᵢ(h)]²
选择h使CV(h)最小
ŷ_≠ᵢ(h) = 排除位置i后的GWR预测值
AIC准则
AIC(h) = n × ln(RSS/n) + n × ln(2π) + n + tr(S)
其中:
tr(S) = GWR帽子矩阵的迹(有效参数数量)
选择h使AIC(h)最小
6.4 GeoDa操作
步骤1:运行GWR
1. Methods → GWR
2. 设置变量:
┌────────────────────────────────┐
│ GWR Setup │
├────────────────────────────────┤
│ Dependent Variable: [PRICE] │
│ Independent Variables: │
│ ☑ INCOME, CRIME, DIST_CBD │
│ │
│ Bandwidth Type: │
│ ◉ Adaptive │
│ ○ Fixed │
│ │
│ Kernel Function: │
│ ◉ Bi-square │
│ ○ Gaussian │
│ │
│ Bandwidth Selection: │
│ ◉ AICc │
│ ○ CV │
│ │
│ [Run] [Cancel] │
└────────────────────────────────┘
步骤2:查看GWR结果
─────────────────────────────────────────
GWR RESULTS
─────────────────────────────────────────
Bandwidth: 45 (adaptive, bi-square)
Kernel: Adaptive bi-square
Summary of Local Coefficients:
─────────────────────────────────────────
Variable Min Mean Max Std
─────────────────────────────────────────
INCOME 0.512 0.834 1.245 0.156
CRIME -0.412 -0.256 -0.123 0.068
DIST_CBD -0.289 -0.178 -0.089 0.047
─────────────────────────────────────────
Global R-squared: 0.723
Local R-squared: Mean = 0.756, Min = 0.612, Max = 0.834
─────────────────────────────────────────
解读:
1. INCOME系数范围[0.512, 1.245]:收入对房价的影响存在空间异质性
2. 局部R²均值0.756 > 全局R² 0.723:GWR拟合更好
3. 可以绘制系数的空间分布图
步骤3:可视化GWR系数
GWR结果窗口 → Maps → Coefficient Maps
显示:
- INCOME系数空间分布图
- CRIME系数空间分布图
- DIST_CBD系数空间分布图
- 局部R²空间分布图
发现:
- 市中心:INCOME系数较小(房价对收入不敏感)
- 郊区:INCOME系数较大(房价对收入敏感)
6.5 GWR vs 全局空间模型
| 特性 | 全局模型(SLM/SEM) | GWR |
|---|---|---|
| 系数 | 全局常数 | 局部变化 |
| 空间异质性 | 无法捕捉 | 可以捕捉 |
| 空间依赖 | 通过W建模 | 通过权重函数 |
| 解释 | 全局平均效应 | 局部空间模式 |
| 预测 | 全局预测 | 局部预测 |
6.6 GWR局限
1. 计算量大(n²复杂度)
2. 过度拟合风险(大量参数)
3. 多重共线性(局部样本少)
4. 无法同时建模空间依赖和空间异质性
7. 实战案例
案例1:房价决定因素分析
研究问题
研究区域:某市200个街区
研究问题:房价的空间决定因素及溢出效应
数据
因变量:
- PRICE:房价(元/平方米)
自变量:
- INCOME:家庭收入(万元)
- CRIME:犯罪率(件/千人)
- DIST_CBD:到CBD距离(km)
- GREEN:绿地覆盖率(%)
- SCHOOL:学区评分(1-10)
分析步骤
步骤1:探索性分析
1. 绘制房价分位数地图
Map → Quantile Map → PRICE
发现:房价呈明显的空间聚集模式
2. 全局Moran's I
Space → Univariate Moran's I → PRICE
结果:I = 0.672, p < 0.001
结论:房价存在显著空间自相关
步骤2:OLS回归
Methods → Regression → Classic
结果:
─────────────────────────────────────────
Variable Coef Std Err t-stat p-value
─────────────────────────────────────────
INCOME 0.856 0.112 7.643 0.0000 ***
CRIME -0.234 0.065 -3.600 0.0004 ***
DIST_CBD -0.178 0.042 -4.238 0.0000 ***
GREEN 0.089 0.034 2.618 0.0094 **
SCHOOL 0.156 0.048 3.250 0.0013 **
CONSTANT 25.678 6.234 4.118 0.0001 ***
─────────────────────────────────────────
R-squared: 0.654
Spatial Diagnostics:
LM(lag) = 23.45, p = 0.0000 ***
LM(error) = 18.23, p = 0.0000 ***
Robust LM(lag) = 8.56, p = 0.0034 **
Robust LM(error) = 3.34, p = 0.0676
─────────────────────────────────────────
诊断:
- 空间依赖性显著
- Robust LM(lag)显著 → 优先考虑SLM
步骤3:空间滞后模型(SLM)
Methods → Regression → Spatial Lag
结果:
─────────────────────────────────────────
Variable Coef Std Err t-stat p-value
─────────────────────────────────────────
W_PRICE 0.425 0.085 5.000 0.0000 ***
INCOME 0.812 0.108 7.519 0.0000 ***
CRIME -0.225 0.062 -3.629 0.0003 ***
DIST_CBD -0.168 0.040 -4.200 0.0000 ***
GREEN 0.085 0.032 2.656 0.0079 **
SCHOOL 0.148 0.045 3.289 0.0010 **
CONSTANT 18.456 6.012 3.071 0.0021 **
─────────────────────────────────────────
R-squared: 0.723
LR test (ρ=0): 18.34, p = 0.0000 ***
Effects:
Variable Direct Indirect Total
──────────────────────────────────
INCOME 0.876 0.523 1.399
CRIME -0.243 -0.145 -0.388
──────────────────────────────────
解读:
1. ρ = 0.425:邻居房价每增加1%,本区域房价增加0.425%
2. INCOME直接效应0.876:本区域收入增加1万,房价增加876元/m²
3. INCOME间接效应0.523:邻居收入增加1万,本区域房价增加523元/m²
4. R²提升至0.723,SLM优于OLS
步骤4:空间杜宾模型(SDM)
Methods → Regression → Spatial Durbin
结果:
─────────────────────────────────────────
Variable Coef t-stat p-value
─────────────────────────────────────────
W_PRICE (ρ) 0.385 4.523 0.0000 ***
INCOME 0.798 7.156 0.0000 ***
CRIME -0.218 -3.412 0.0006 ***
DIST_CBD -0.172 -4.012 0.0001 ***
GREEN 0.082 2.512 0.0120 *
SCHOOL 0.142 3.089 0.0020 **
─────────────────────────────────────────
W_INCOME 0.285 2.156 0.0311 *
W_CRIME -0.165 -2.012 0.0442 *
W_DIST_CBD -0.088 -1.456 0.1456
W_GREEN 0.065 1.234 0.2171
W_SCHOOL 0.112 1.567 0.1171
─────────────────────────────────────────
R-squared: 0.738
LR test (SDM vs SLM): 6.78, p = 0.234
─────────────────────────────────────────
诊断:
- LR检验不显著 → SLM可能足够
- 但W_INCOME和W_CRIME显著 → 空间溢出存在
步骤5:地理加权回归(GWR)
Methods → GWR
结果:
─────────────────────────────────────────
Summary of Local Coefficients:
Variable Min Mean Max Std
─────────────────────────────────────────
INCOME 0.512 0.815 1.345 0.178
CRIME -0.412 -0.225 -0.089 0.078
DIST_CBD -0.289 -0.168 -0.067 0.052
─────────────────────────────────────────
Local R-squared: Mean = 0.762
发现:
1. INCOME系数变化最大(标准差0.178)
- 市中心:系数较小(≈0.6)
- 郊区:系数较大(≈1.2)
→ 郊区房价对收入更敏感
2. CRIME系数也有空间变化
- 北部:影响较大(≈-0.35)
- 南部:影响较小(≈-0.15)
最终模型选择
综合考虑:
1. 理论机制:
- 房价存在邻里效应 → SLM/SDM
- 自变量溢出存在 → SDM
2. 统计检验:
- Robust LM(lag)显著 → SLM/SDM
- LR检验不显著 → SLM足够
3. 拟合优度:
- SLM R² = 0.723
- SDM R² = 0.738(提升有限)
- GWR Local R² = 0.762(最高)
推荐模型:
- 主要分析:SLM(简洁,易解释)
- 补充分析:GWR(探索空间异质性)
政策建议
基于SLM结果:
1. 空间溢出效应(ρ = 0.425):
- 房价政策需考虑区域协调
- 单个街区的改善会带动周边
2. 收入效应(直接0.876 + 间接0.523 = 1.399):
- 提高居民收入是提升房价的根本
- 邻居收入提升也会带动本区域房价
3. 犯罪率(直接-0.243 + 间接-0.145 = -0.388):
- 降低犯罪率对房价有显著正向影响
- 治安改善存在空间溢出
4. 学区(0.148):
- 教育资源对房价影响显著
- 学区房政策需谨慎制定
案例2:经济增长收敛性分析
研究问题
研究区域:中国31个省份
研究问题:经济增长是否存在β收敛?
(落后地区增长是否更快?)
模型设定
β收敛模型:
ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) = α + β × ln(yᵢ,ₜ) + εᵢ
其中:
yᵢ,ₜ = 省份i在t年的人均GDP
yᵢ,ₜ₊ₜ = 省份i在t+T年的人均GDP
β < 0 → 存在收敛
考虑空间效应:
ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) = α + β × ln(yᵢ,ₜ) + ρ × W × ln(yᵢ,ₜ₊ₜ / yᵢ,ₜ) + εᵢ
GeoDa分析
1. 数据准备
- 计算1990-2020年人均GDP增长率
- 创建省份邻接权重
2. OLS回归
β = -0.023, p = 0.056(边缘显著)
LM(lag) = 5.67, p = 0.017 *
3. SLM回归
β = -0.031, p = 0.012 *
ρ = 0.312, p = 0.023 *
结论:
- 考虑空间效应后,β收敛显著
- 存在正向空间溢出(ρ = 0.312)
- 落后省份增长更快,但受邻居影响
8. 结果报告撰写
8.1 标准报告结构
markdown
## 空间回归分析结果
### 1. 模型选择
**空间依赖性诊断**:
- LM(lag) = 23.45, p < 0.001
- LM(error) = 18.23, p < 0.001
- Robust LM(lag) = 8.56, p = 0.003
- Robust LM(error) = 3.34, p = 0.068
**模型选择**:基于Robust LM检验,选择空间滞后模型(SLM)
### 2. 回归结果
**SLM估计结果**:
| 变量 | 系数 | 标准误 | t值 | p值 | 直接效应 | 间接效应 | 总效应 |
|------|------|--------|-----|-----|----------|----------|--------|
| ρ | 0.425 | 0.085 | 5.00 | 0.000 | - | - | - |
| INCOME | 0.812 | 0.108 | 7.52 | 0.000 | 0.876 | 0.523 | 1.399 |
| CRIME | -0.225 | 0.062 | -3.63 | 0.000 | -0.243 | -0.145 | -0.388 |
**模型拟合**:
- R² = 0.723
- LR test (ρ=0) = 18.34, p < 0.001
### 3. 主要发现
1. **空间溢出效应显著**(ρ = 0.425, p < 0.001)
- 邻居房价每增加1%,本区域房价增加0.425%
2. **收入对房价有正向影响**
- 直接效应:0.876
- 间接效应:0.523
- 总效应:1.399
3. **犯罪率对房价有负向影响**
- 直接效应:-0.243
- 间接效应:-0.145
### 4. 政策建议
基于空间回归结果,建议:
1. 制定区域协调的房价调控政策
2. 通过提高收入水平提升房价
3. 加强治安管理,降低犯罪率
9. 常见问题
Q1: OLS和SLM的系数可以比较吗?
不能直接比较!
原因:
1. SLM的系数解释不同(包含空间反馈)
2. SLM应看直接效应,而非原始系数
正确做法:
- SLM报告直接效应、间接效应
- OLS系数 ≈ SLM直接效应(如果ρ较小)
Q2: ρ值很大(>0.8)怎么办?
可能问题:
1. 空间权重矩阵设定不当
2. 数据存在高度空间依赖
3. 变量选择问题
解决方案:
1. 检查权重矩阵(尝试不同类型)
2. 增加控制变量
3. 考虑变量变换(对数、差分)
Q3: 如何处理负的ρ值?
ρ < 0 可能原因:
1. 竞争效应(邻居高,本区域低)
2. 替代效应
3. 数据问题
例子:
- 商业中心竞争(ρ < 0正常)
- 房价(通常ρ > 0,如果ρ < 0需检查)
Q4: GWR结果如何汇总?
GWR产生大量局部系数,汇总方法:
1. 描述性统计(Min, Mean, Max, Std)
2. 绘制系数空间分布图
3. 识别系数极端值区域
4. 结合专业知识解释空间变化
10. 小结
空间回归分析是处理空间数据的核心方法。
关键要点:
- OLS假设不适用于空间数据
- SLM捕捉因变量的空间依赖
- SEM捕捉误差项的空间依赖
- SDM是最一般的空间模型
- GWR捕捉空间异质性
- 模型选择需结合统计检验和理论机制
- 关注直接效应和间接效应
最佳实践:
- 先运行OLS诊断空间依赖
- 使用LM检验选择模型
- 报告直接效应和间接效应
- 结合GWR探索空间异质性
- 图表结合,增强可读性
附录:数学推导
SLM的简化形式
y = ρWy + Xβ + ε
(I - ρW)y = Xβ + ε
y = (I - ρW)⁻¹Xβ + (I - ρW)⁻¹ε
空间乘数:M = (I - ρW)⁻¹ = I + ρW + ρ²W² + ρ³W³ + ...
总效应 = M × β
直接效应 = diag(M) × β
间接效应 = (M - I) × β
SEM的ML估计
对数似然函数:
ln L = -n/2 ln(2π) - 1/2 ln|Ω| - 1/2 e'Ω⁻¹e
其中:
Ω = σ²(I - λW)⁻¹(I - λW')⁻¹
e = y - Xβ
通过数值优化求解
GWR的局部估计
对于位置i,加权最小二乘:
β̂(i) = (X'W(i)X)⁻¹X'W(i)y
其中:
W(i) = diag(wᵢ₁, wᵢ₂, ..., wᵢₙ)
wᵢⱼ = 核函数(位置j到位置i的距离)