【机器学习】鲁棒(健壮)回归-Theil-Sen估计(Theil-Sen Estimator)

Theil-Sen估计

Theil-Sen估计是一种用于线性回归的非参数方法,其优点是对离群点具有鲁棒性。它通过计算数据点之间所有可能斜率的中位数来估计回归线的斜率,随后使用这些斜率估算截距。


核心思想

  1. 斜率估计 : 对于给定的一组数据点 ,Theil-Sen 方法计算每对数据点之间的斜率:

    斜率 m 的估计值为这些 的中位数:

  2. 截距估计: 截距 b 的估计值是使得中位残差最小的值。通常计算为:

  3. 回归方程: 最终的回归方程为:


优缺点

优点
  • 鲁棒性:对离群点不敏感,适用于数据中包含异常值的场景。
  • 非参数性:不需要对误差分布作假设。
缺点
  • 计算复杂度 :由于需要计算所有点对的斜率,其复杂度为 ,对于大数据集可能较慢。
  • 仅限一维:适用于单变量回归,不适合多元回归。

Theil-Sen估计的Python实现

以下是使用 scipy.stats 库实现 Theil-Sen 回归的代码示例:

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import TheilSenRegressor

# 示例数据
np.random.seed(42)
X = np.random.rand(100) * 10  # 随机生成自变量
y = 2 * X + np.random.normal(0, 1, 100)  # 线性关系 + 噪声

# 添加一些离群点
X = np.append(X, [8, 9, 10])
y = np.append(y, [30, 35, 40])

plt.rcParams['font.sans-serif'] = ['SimHei']
# 解决负号'-'显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False

# 可视化数据
plt.scatter(X, y, color="blue", label="数据点")
plt.xlabel("X")
plt.ylabel("y")
plt.title("带离群点的数据")
plt.show()

# 使用 Theil-Sen 方法进行回归
X = X.reshape(-1, 1)  # 调整为二维数组
model = TheilSenRegressor(random_state=42)
model.fit(X, y)

# 获取拟合结果
y_pred = model.predict(X)
print(f"斜率 (m): {model.coef_[0]:.2f}")
print(f"截距 (b): {model.intercept_:.2f}")

# 绘制结果
plt.scatter(X, y, color="blue", label="数据点")
plt.plot(X, y_pred, color="red", label="Theil-Sen回归线")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.title("Theil-Sen 回归结果")
plt.show()

**输出示例

**

  1. 回归方程

    • 输出拟合直线的斜率和截距,例如:

      Matlab 复制代码
      斜率 (m): 1.95
      截距 (b): 0.25
  2. 图形结果

    • 数据点(含离群点)用蓝色散点表示。
    • Theil-Sen拟合的回归线用红色直线表示。

应用领域

  1. 经济学
    • 分析具有极值或异常值的时间序列数据。
  2. 环境科学
    • 估计气候趋势或环境变量的变化。
  3. 计算机视觉
    • 图像配准中的鲁棒线性模型拟合。

Theil-Sen 估计常用场景包括需要处理离群点或非正态分布误差的数据。

相关推荐
小陈工1 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬5 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志5 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114246 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠6 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光6 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好6 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力6 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo6 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_7 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能