scikit-learn/sklearn学习|岭回归解读

【1】引言

前序学习进程中,对用scikit-learn表达线性回归进行了初步解读。

线性回归能够将因变量 y y y表达成由自变量 x x x、线性系数矩阵 w w w和截距 b b b组成的线性函数式:
y = ∑ i = 1 n w i ⋅ x i + b = w T x + b y=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+b y=i=1∑nwi⋅xi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系,所以需要对线性关系式进行修正,这个时候就可以考虑岭回归。

【2】岭回归的原理

岭回归是修正后的线性回归,所以描述岭回归,必须先会议线性回归。

用scikit-learn表达线性回归中,我们在代码中使用了一个参数:均方误差。

【2.1】线性回归均方误差

对于线性回归,均方误差的计算式子为:
L ( w , b ) = ∑ i = 1 n ( y i − y i ^ ) 2 = ∑ i = 1 n ( y i − ( w T x i + b ) ) 2 L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2 L(w,b)=i=1∑n(yi−yi^)2=i=1∑n(yi−(wTxi+b))2在这里, y y y是第i个样本的真实值, y ^ \hat{y} y^是第i个样本的预测值。

线性回归的均方误差将真实值和预测值作差后求平方和即可。

【2.2】岭回归均方误差

岭回归相对于线性回归,均方误差的计算式子增加了对参数权重平方和的计算,称之为L2正则化惩罚项:
L ( w , b ) = ∑ i = 1 n ( y i − y i ^ ) 2 + α ∑ j = 1 m w j 2 = ∑ i = 1 n ( y i − ( w T x i + b ) ) 2 + α ∑ j = 1 m w j 2 L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2} L(w,b)=i=1∑n(yi−yi^)2+αj=1∑mwj2=i=1∑n(yi−(wTxi+b))2+αj=1∑mwj2在这里, y y y是第i个样本的真实值, y ^ \hat{y} y^是第i个样本的预测值。

新增加的L2正则化惩罚项 α ∑ j = 1 m w j 2 \alpha\sum_{j=1}^{m}w_{j}^{2} α∑j=1mwj2包括两部分:

第一部分 α > 0 \alpha>0 α>0代表正则化强度,可以控制对第二项惩罚的力度;

第二部分 ∑ j = 1 m w j 2 \sum_{j=1}^{m}w_{j}^{2} ∑j=1mwj2是所有线性系数的平方和。

当 α \alpha α越大,惩罚项整体就会越大,这个时候往往需要将 w j w_{j} wj调小,也就是通过调整 w j → 0 w_{j}\rightarrow 0 wj→0来避免过度拟合;

当 α = 0 \alpha=0 α=0,此时惩罚项不起作用,岭回归退化为线性回归。

【2.3】岭回归的意义

岭回归通过添加惩罚项解决了线性回归至少两个问题:

多重共线性,当变量之间高度相关时,在线性回归计算中可能获得极大的 w j w_{j} wj,通过惩罚项可以将这些参数下降到较小的范围,使得模型对数据波动的敏感性降低,从而获得更加稳健的效果;

过拟合,当变量过多或者噪声过大时,线性回归可能过度拟合数据,惩罚项通过将线性系数 w j w_{j} wj调小,让模型更倾向于关注整体趋势而非噪音。

【3】总结

岭回归和线性回归都是线性关系式的推演,但岭回归通过L2正则化惩罚项让线性系数 w j w_{j} wj保持在合理且较小的范围,让回归模型更稳健、更准确。

相关推荐
缺点内向3 分钟前
C#: 高效移动与删除Excel工作表
开发语言·c#·.net·excel
老前端的功夫30 分钟前
Web应用的永生之术:PWA落地与实践深度指南
java·开发语言·前端·javascript·css·node.js
极客学术工坊37 分钟前
2022年第十二届MathorCup高校数学建模挑战赛-D题 移动通信网络站址规划和区域聚类问题
机器学习·数学建模·启发式算法·聚类
ᐇ9592 小时前
Java HashMap深度解析:数据结构、原理与实战指南
java·开发语言·数据结构
QT 小鲜肉2 小时前
【个人成长笔记】在 Linux 系统下撰写老化测试脚本以实现自动压测效果(亲测有效)
linux·开发语言·笔记·单片机·压力测试
程序员龙一2 小时前
C++之static_cast关键字
开发语言·c++·static_cast
yue0082 小时前
C# 分部类读取学生信息
开发语言·c#
奶茶树2 小时前
【C++/STL】map和multimap的使用
开发语言·c++·stl
chenzhiyuan20182 小时前
《十五五规划》下的AI边缘计算机遇:算力下沉与工业智能化
人工智能·边缘计算
聪明努力的积极向上2 小时前
【C#】事件简单解析
开发语言·c#