找最优参数 β 0 \beta_0 β0 和 β 1 \beta_1 β1 使预测值 y ^ \hat{y} y^ 与实际值 y y y 的偏差最小
多元线性回归:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ϵ y=\beta_0+\beta_1 x_1+\beta_2 x_2+...+\beta_p x_p+\epsilon y=β0+β1x1+β2x2+...+βpxp+ϵ
谁的 β \beta β越大, 说明哪个指标的权重更大, 更重要
数据准备阶段
数据收集
数据清洗
数据转换与标准化
特征选择与处理
检查变量间的线性关系
多重共线性检测
特征工程
模型构建阶段
确定模型
拆分数据集
模型训练
检查模型拟合
模型评估阶段
拟合优度 R 2 R^2 R2
调整后的 R 2 R^2 R2
均方误差MSE
均分根误差RMSE
平均绝对误差MAE
模型优化与改进
特征选择优化
非线性改进
数据变换
正则化方法
1.数据准备阶段
数据收集: 覆盖范围广, 具有代表性
数据清洗:
缺失值(删除, 填补)
异常值(箱线图识别)
检查一致性: 单位, 取值范围
数据转换与标准化: 略
2.特征选择与处理
检查变量间的线性关系:
散点图可视化, 相关矩阵
pearson相关系数
如果某个自变量和因变量的相关性很弱, 可以考虑剔除
多重共线性检测:
计算变量的方差膨胀因子(VIF), 一般认为 V I F > 10 VIF>10 VIF>10时说明共线性较强
如果存在多重共线性, 可以通过以下方法解决:
提出相关性强的变量
使用正则化方法(岭回归, LASSO回归)
PCA降维
特征工程:
添加新特征: 构建交互项( x 1 × x 2 x_1 \times x_2 x1×x2) 或 非线性项( x 2 x^2 x2)
编码分类变量: 对类别型变量进行处理(独热编码, 数值化编码)
3.模型构建阶段
确定模型形式: y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ϵ y=\beta_0+\beta_1 x_1+\beta_2 x_2+...+\beta_p x_p+\epsilon y=β0+β1x1+β2x2+...+βpxp+ϵ
拆分数据集: 留出法(7:3或8:2)
模型训练:
用训练集拟合多元线性回归模型, 常用最小二乘法OLS
通过最小化残差平方和RSS估计回归系数 β \beta β
检查模型拟合:
检查回归系数的显著性 -> 通过t检验和p值
检查模型的整体显著性 -> 通过F检验
确认误差项是否满足正态性和同方差性假设 -> 残差分析
4.模型评估阶段
拟合优度 R 2 R^2 R2: 反映模型对数据的解释能力, 范围[0, 1]
R 2 = 1 − R S S T S S R^2=1-\frac{RSS}{TSS} R2=1−TSSRSS
调整后的 R 2 R^2 R2: 适用于多元回归, 能够平衡模型复杂度
R a d j u s t e d 2 = 1 − ( 1 − R 2 ) ( n − 1 ) n − p − 1 R^2_{adjusted}=1-\frac{(1-R^2)(n-1)}{n-p-1} Radjusted2=1−n−p−1(1−R2)(n−1)
均方误差MSE:
M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2
均分根误差RMSE:
R M S E = M S E RMSE = \sqrt{MSE} RMSE=MSE
平均绝对误差MAE:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| MAE=n1i=1∑n∣yi−y^i∣