局部加权回归

2. 局部加权回归 (Loess / Lowess)

局部加权回归是一种非参数回归方法,可以自适应地拟合数据的弧度。它对每个点应用加权回归,以根据数据的局部趋势产生一条平滑曲线。这种方法特别适合捕捉数据中较小的曲率变化。

  • 优点:能够很好地拟合微小的非线性变化,不需要指定多项式的次数。
  • 缺点:计算量较大,不适合处理特别大的数据集,且局部加权回归的结果缺乏全局方程,因此解释性可能稍弱。

局部加权回归(Lowess 或 Loess)是一种非参数方法,它能够捕捉数据中的局部非线性趋势,适合于观察数据的平滑变化。我们可以使用 statsmodels 库中的 lowess 函数来实现。以下代码示例展示了如何使用 Lowess 对数据进行回归,并绘制回归曲线及其置信区间。

代码示例

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.nonparametric.smoothers_lowess import lowess
from sklearn.utils import resample

# 生成一些带有轻微非线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.sin(x) + 0.3 * x + np.random.normal(0, 0.2, size=x.shape)

# 使用 Lowess 进行局部加权回归
frac = 0.3  # 平滑参数,决定窗口大小,数值越小平滑度越低
lowess_result = lowess(y, x, frac=frac)

# 获取拟合的 y 值
y_pred = lowess_result[:, 1]

# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_pred_bootstrap = []

for _ in range(n_bootstraps):
    # 随机采样并计算 Lowess 拟合
    x_boot, y_boot = resample(x, y)
    lowess_boot = lowess(y_boot, x_boot, frac=frac)
    
    # 将拟合值插值到原始 x 上
    y_pred_interpolated = np.interp(x, lowess_boot[:, 0], lowess_boot[:, 1])
    y_pred_bootstrap.append(y_pred_interpolated)

# 将预测结果转换为数组
y_pred_bootstrap = np.array(y_pred_bootstrap)

# 计算置信区间
lower_bound = np.percentile(y_pred_bootstrap, 2.5, axis=0)
upper_bound = np.percentile(y_pred_bootstrap, 97.5, axis=0)

# 绘制散点图、回归曲线和置信区间
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='gray', label='Data Points')
plt.plot(x, y_pred, color='blue', label='Lowess Regression')
plt.fill_between(x, lower_bound, upper_bound, color='lightblue', alpha=0.5, label='95% Confidence Interval')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Lowess Regression with 95% Confidence Interval')
plt.legend()
plt.show()

代码说明

  1. 数据生成 :生成带有非线性趋势的样本数据 y = sin ⁡ ( x ) + 0.3 × x + noise y = \sin(x) + 0.3 \times x + \text{noise} y=sin(x)+0.3×x+noise。
  2. Lowess 拟合 :使用 statsmodels.nonparametric.smoothers_lowess.lowess 函数,设置 frac 参数来控制平滑度。较小的 frac 值会产生更局部化的拟合,适合较快变化的非线性数据。
  3. Bootstrap 置信区间 :通过引导法 (Bootstrap) 生成 200 组不同的样本集,对每组样本进行 Lowess 回归拟合。然后使用 np.interp 将每组拟合值插值到原始 x 位置,以便计算置信区间。
  4. 置信区间计算:对所有拟合样本的结果,取 2.5 和 97.5 百分位数,得到 95% 的置信区间。
  5. 绘图:绘制数据点、Lowess 回归曲线和置信区间。

输出图形


执行代码后将生成如下内容:

  • 灰色散点图:展示原始数据点分布。
  • 蓝色的 Lowess 回归曲线:平滑的局部加权回归结果。
  • 淡蓝色置信区间:基于 Bootstrap 生成的 95% 置信区间。
相关推荐
txg66629 分钟前
自动驾驶领域热点简报(2026-04-26 ~ 2026-05-03)
linux·人工智能·自动驾驶
龙山云仓1 小时前
小G&老D求解:第7日·立夏·蝼蝈鸣
人工智能·机器学习
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-04-30
人工智能·经验分享·深度学习·神经网络·产品运营
sunneo1 小时前
专栏D-团队与组织-03-产品文化
人工智能·产品运营·aigc·产品经理·ai编程
Muyuan19981 小时前
28.Paper RAG Agent 开发记录:修复 LLM Rerank 的解析、Fallback 与可验证性
linux·人工智能·windows·python·django·fastapi
AI科技星2 小时前
精细结构常数α作为SI 7大基本量纲统一耦合常数的量子几何涌现理论
算法·机器学习·数学建模·数据挖掘·量子计算
小呆呆6662 小时前
Codex 穷鬼大救星
前端·人工智能·后端
薛定猫AI2 小时前
【深度解析】Kimi K2.6 的长上下文 Agentic Coding 能力与 OpenAI 兼容 API 接入实践
人工智能·自动化·知识图谱
星爷AG I2 小时前
20-6 记忆整合(AGI基础理论)
人工智能·agi
AI创界者2 小时前
人工智能 GPT-Image DMXAPI Python AI绘画
人工智能