从0开始学习R语言--Day23--稳健回归

稳健回归

一般来说,对于打印出来后明显分布的比较集中,靠近线分布的数据,我们会优先用最小二乘法(OLS)去回归数据,在正常的情况下它的效果很好,但如果数据中存在了比较离谱的离散点,那么由于OLS的算法机制,它会为了强行去拟合这些离散点去扭曲回归线,也就是让其产生偏离,这会严重误导我们对数据的判断。而稳健回归在这类处理中,引入了权重,通过对离散点的误差计算,当它认为这是会产生极大误差的点时,会赋予这些点很低的权重(有时甚至接近于0),从而使模型能够忽略这些离散点,较好的呈现出数据本身的统计性质。

以下是一个例子来说明:

R 复制代码
set.seed(123)  # 固定随机数
n <- 100       # 样本量

# 生成正常数据
x <- rnorm(n, mean = 10, sd = 2)
y <- 2 * x + rnorm(n, mean = 0, sd = 1)  # 真实关系: y = 2x + 噪声

# 添加异常值(5个极端点)
outliers <- sample(1:n, 5)
y[outliers] <- y[outliers] + rnorm(5, mean = 15, sd = 3)  # 人为制造异常

# 合并为数据框
df <- data.frame(x, y)
head(df)
# 安装包(如果未安装)
# install.packages("MASS")

library(MASS)  # 包含稳健回归函数rlm()

# 普通最小二乘法(OLS)
ols_model <- lm(y ~ x, data = df)
summary(ols_model)  # 查看结果

# 稳健回归(M估计,默认使用Huber损失函数)
robust_model <- rlm(y ~ x, data = df)
summary(robust_model)  # 查看结果

# 绘制数据点和回归线
plot(df$x, df$y, pch = 16, col = ifelse(1:n %in% outliers, "red", "blue"),
     main = "OLS vs Robust Regression")
abline(ols_model, col = "black", lwd = 2, lty = 2)      # OLS回归线(虚线)
abline(robust_model, col = "green", lwd = 2)            # 稳健回归线(实线)
legend("topleft", legend = c("OLS", "Robust"), 
       col = c("black", "green"), lty = c(2, 1), lwd = 2)

输出:

R 复制代码
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.4482     1.9075   1.284    0.202    
x             1.8175     0.1844   9.854 2.51e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
            Value   Std. Error t value
(Intercept)  0.1394  0.5974     0.2334
x            1.9752  0.0578    34.1940

Residual standard error: 0.992 on 98 degrees of freedom

从输出中我们可以明显观察到,OLS的截距是2.4482,而相比之下,稳健回归的是0.1394,更靠近理论上不设置噪声时的截距为0的情况。结合图像来看,OLS生成的虚线很明显被离散点误导了,向上偏移,而稳健回归的标准误差较小也说明估计更可靠。

相关推荐
dragoooon3430 分钟前
C++——string的了解和使用
c语言·开发语言·c++·学习·学习方法
微光-沫年38 分钟前
141-CEEMDAN-VMD-Transformer-BiLSTM-ABKDE多变量区间预测模型!
算法·matlab·回归
牛奶咖啡131 小时前
学习设计模式《十七》——状态模式
学习·设计模式·状态模式·认知状态模式·状态模式的优缺点·何时使用状态模式·状态模式的使用示例
郑板桥301 小时前
ts学习1
学习·typescript
居然是阿宋3 小时前
【学习笔记】OkHttp源码架构解析:从设计模式到核心实现
笔记·学习·okhttp
想成为大佬的每一天3 小时前
Linux驱动学习day20(pinctrl子系统驱动大全)
学习
不太可爱的叶某人12 小时前
【学习笔记】MySQL技术内幕InnoDB存储引擎——第5章 索引与算法
笔记·学习·mysql
岁岁岁平安12 小时前
Redis基础学习(五大值数据类型的常用操作命令)
数据库·redis·学习·redis list·redis hash·redis set·redis string
知识分享小能手14 小时前
Vue3 学习教程,从入门到精通,使用 VSCode 开发 Vue3 的详细指南(3)
前端·javascript·vue.js·学习·前端框架·vue·vue3
pay4fun14 小时前
2048-控制台版本
c++·学习