sklearn基础--『回归模型评估』之偏差分析

模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

本篇主要介绍模型评估 时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。

1. R² 分数

R² 分数 (也叫决定系数 ),用于衡量模型预测的拟合优度,它表示模型中因变量 的变异中,可由自变量 解释的部分所占的比例。
接近1 的话,表示模型能够很好地解释因变量的变异,接近0的话,则表示模型解释能力较差。

需要注意的是,虽然R² 分数 是一个很有用的指标,但它也有一些局限性。

例如,当模型中自变量数量增加时,R² 分数 可能会增加,即使这些自变量对因变量没有真正的解释力。

因此,在使用R² 分数评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

R 2 ( y , y ^ ) = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}i)^2}{\sum{i=1}^{n} (y_i - \bar{y})^2} R2(y,y^)=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2 且 y ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1∑i=1nyi

其中, n n n是样本数量, y i y_i yi是真实值, y i ^ \hat{y_i} yi^是预测值。

1.2. 使用示例

python 复制代码
from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果: 0.4

y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果: 0.8

r2_score就是scikit-learn中用来计算 R² 分数的函数。

2. 解释方差分数

解释方差分数Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
解释方差分数比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。

需要注意的是,解释方差分数仅关注模型对方差的解释程度,并不直接反映预测的准确度。

2.1. 计算公式

e x p l a i n e d _ v a r i a n c e ( y , y ^ ) = 1 − V a r { y − y ^ } V a r { y } explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}} explained_variance(y,y^)=1−Var{y}Var{y−y^}

其中, y y y是真实值, y ^ \hat{y} y^是预测值。
V a r Var Var表示计算方差,比如: V a r { y } = 1 n ∑ i = 1 n ( y i − y ˉ ) 2 Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2 Var{y}=n1∑i=1n(yi−yˉ)2

2.2. 使用示例

python 复制代码
from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果: 0.45

y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果: 0.85

explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。

Tweedie 偏差 根据Tweedie分布 的定义而来,参数不同,表示不同的分布。
Tweedie 偏差较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。

需要注意的是,在使用 Tweedie 偏差 时,需要确保所选的 Tweedie 分布适合数据的特性,否则可能会导致不准确的评估结果。

3.1. 计算公式

D ( y , y ^ ) = 1 n ∑ i = 0 n − 1 2 ( max ⁡ ( y i , 0 ) 2 − p ( 1 − p ) ( 2 − p ) − y i   y ^ i 1 − p 1 − p + y ^ i 2 − p 2 − p ) \text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}- \frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right) D(y,y^)=n1∑i=0n−12((1−p)(2−p)max(yi,0)2−p−1−pyiy^i1−p+2−py^i2−p)

其中, n n n是样本数量, y i y_i yi是真实值, y i ^ \hat{y_i} yi^是预测值。

上面的公式中, p = 0 p=0 p=0时,Tweedie 偏差 相当于均方误差
D ( y , y ^ ) = 1 n ∑ i = 0 n − 1 ( y i − y ^ i ) 2 \text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2 D(y,y^)=n1∑i=0n−1(yi−y^i)2

p = 1 p=1 p=1时,Tweedie 偏差 相当于平均泊松偏差
D ( y , y ^ ) = 1 n ∑ i = 0 n − 1 2 ( y i log ⁡ ( y i / y ^ i ) + y ^ i − y i ) \text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i) D(y,y^)=n1∑i=0n−12(yilog(yi/y^i)+y^i−yi)

p = 2 p=2 p=2时,Tweedie 偏差 相当于平均Gamma偏差
D ( y , y ^ ) = 1 n ∑ i = 0 n − 1 2 ( log ⁡ ( y ^ i / y i ) + y i / y ^ i − 1 ) \text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1) D(y,y^)=n1∑i=0n−12(log(y^i/yi)+yi/y^i−1)

3.2. 使用示例

python 复制代码
from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)
# 运行结果: 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果: 10000.0

mean_tweedie_deviance([1], [2], power=1)
# 运行结果: 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果: 61.370563888010906

mean_tweedie_deviance([1], [2], power=2)
# 运行结果: 0.3862943611198908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果: 0.3862943611198908

power参数不同,同样是预测值和实际值差两倍 的情况下,不同分布,Tweedie 偏差的结果差别很大。

4. 总结

总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。

对于回归问题的建模和预测具有重要的实际意义。

相关推荐
Mikowoo0071 小时前
机器学习_梯度计算
人工智能·python·机器学习
_Oracle1 小时前
机器学习——归纳偏好
人工智能·机器学习
MRDONG13 小时前
从机器学习到大语言模型:一文讲清 AI、Transformer、Embedding 和向量数据库
人工智能·机器学习·语言模型
城事漫游Molly4 小时前
AI与质性研究的融合(三):AI赋能质性数据分析——从编码到理论构建的新范式
大数据·人工智能·机器学习·prompt·ai for science·智能体·定性研究
大模型最新论文速读4 小时前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Omics Pro5 小时前
基因泰克:检测级虚拟细胞基准!大语言模型+智能体
大数据·数据库·人工智能·机器学习·语言模型·自然语言处理·r语言
z小猫不吃鱼5 小时前
15 InstructGPT 论文精读:SFT + RLHF 如何让模型听懂指令?
人工智能·深度学习·算法·机器学习·语言模型·自然语言处理·gpt-3
救救孩子把5 小时前
78-机器学习与大模型开发数学教程-7-6 自注意力机制的计算复杂度分析
人工智能·机器学习
人工智能培训6 小时前
数字孪生赋能建筑行业 解锁工程全周期智慧管理
大数据·人工智能·机器学习·prompt·agent
阳明山水6 小时前
销量预测模型评估进阶:从 MAPE 到库存周转率与缺货损失金额
人工智能·机器学习·微信·微信公众平台·微信开放平台