基于Python代码的相关性热力图,VIF共线性诊断图及残差四图的使用及解释

注:热力图共线性诊断图易看易解释,这里不再阐述

残差四图(Residuals vs Fitted Plot,Normal Q-Q Plot,Scale-Location Plot,Cook's Distance Plot)

各种现象的相关解释如下:

  1. Residuals vs Fitted Plot(残差与拟合值散点图):

    这个图用于帮助检验回归模型的线性关系假设。在这个图中,我们会将模型的残差(观测值与预测值之间的差异)与模型的拟合值(预测值)进行比较,理想情况下,残差应该随着拟合值的增加而随机分布在0附近,没有明显的模式或趋势。如果残差呈现出某种趋势,可能意味着模型的线性关系假设不成立。

  2. Normal Q-Q Plot(正态概率图):

    这个图用于检验模型残差是否符合正态分布。在这个图中,残差的排序值会和一个理论的正态分布进行比较,理想情况下,残差点应该落在一条直线上,如果残差点偏离直线,可能表示残差不符合正态分布。

  3. Scale-Location Plot(标准化残差与拟合值的散点图):

    这个图也称为"Spread-Location"图,用于检验模型的同方差性假设。在这个图中,我们会将标准化残差的绝对值开方(以消除负值)与拟合值进行比较,理想情况下,点应该在一条水平线上分布,如果点呈现出聚集或特定的模式,可能意味着同方差性不成立。

  4. Cook's Distance Plot(库克距离图):

    这个图用于识别在回归模型中对结果产生显著影响的个别观测值。Cook's Distance是一种衡量数据点影响的统计量,这个图可以显示每个数据点的Cook's Distance值,通常我们会关注那些Cook's Distance远高于平均水平的数据点,它们可能是影响模型准确性的异常值或离群点。

综合使用这四种图可以帮助分析师评估线性回归模型的准确性、假设是否成立以及是否存在异常值,从而提高建模的质量和可靠性。

1>封装好的代码如下:

复制代码
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.formula.api as smf
import pandas as pd
from statsmodels.formula.api import ols
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

def Corr_heatmap(data):
    # import matplotlib.pyplot as plt
    # import seaborn as sns
    #相关性分析
    print(data.corr())
    #画出热力图
    plt.figure(figsize=(7,5),dpi=128)
    sns.heatmap(data.corr().round(2), cmap='coolwarm', annot=True, annot_kws={"size": 10})
    plt.savefig('相关系数热力图.jpg')
    plt.show()

def VIF_calculate(data, y_name):
    # import statsmodels.formula.api as smf
    # import pandas as pd
    x_cols = data.columns.to_list()
    x_cols.remove(y_name)

    def vif(df_exog, exog_name):
        exog_use = list(df_exog.columns)
        exog_use.remove(exog_name)
        model = smf.ols(f"{exog_name}~{'+'.join(list(exog_use))}", data=df_exog).fit()
        return 1. / (1. - model.rsquared)

    df_vif = pd.DataFrame()
    for x in x_cols:
        df_vif.loc['VIF', x] = vif(data[x_cols], x)

    df_vif.loc['tolerance'] = 1 / df_vif.loc['VIF']
    df_vif = df_vif.T.sort_values('VIF', ascending=False)
    df_vif.loc['mean_vif'] = df_vif.mean()
    # from statsmodels.formula.api import ols
    def vif(data, col_i):
        """
        df: 整份数据
        col_i:被检测的列名
        """
        cols = list(data.columns)
        cols.remove(col_i)
        cols_noti = cols
        formula = col_i + '~' + '+'.join(cols_noti)
        r2 = ols(formula, data).fit().rsquared
        # 其实就是多元线性回归建模步骤,只是取出了参数 R 平方而已
        test = 1. / (1. - r2)
        return test

    print('vif检验结果')
    print('  变量            vif检验值')
    vif_value = []
    for i in data:
        print(i.center(7) + '    ', str(vif(data=data, col_i=i)))
        vif_value.append(vif(data=data, col_i=i))
    plt.bar([x for x in data], vif_value, color='teal')
    plt.axhline(10, color='red', lw=2, label="参考线")
    plt.title("VIF检验结果")
    plt.xlabel("变量")
    plt.ylabel("VIF_value")
    plt.show()
    return print(df_vif)

def Residuals_plot(predicts,residuals):
    import numpy as np
    import matplotlib.pyplot as plt
    import statsmodels.api as sm
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False

    plt.subplots(2, 2, figsize=(8, 8), dpi=128)
    plt.subplot(221)
    plt.scatter(predicts, residuals)
    plt.xlabel('Fitted Value')
    plt.ylabel('Residual')
    plt.title('(a)Residuals vs Fitted Plot', fontsize=15)
    plt.axhline(0, ls='--')

    ax2 = plt.subplot(222)
    pplot = sm.ProbPlot(residuals, fit=True)
    pplot.qqplot(line='r', ax=ax2, xlabel='Theoretical Quantiles', ylabel='Sample Quantiles')
    ax2.set_title('(b)Normal Q-Q Plot', fontsize=15)

    #创建一个序列来表示观测序号:
    obs = np.arange(1, len(residuals) + 1)
    #绘制scale-location图
    ax3 = plt.subplot(223)
    ax3.scatter(np.sqrt(obs), np.abs(residuals))
    ax3.set_xlabel("√Observation Number")
    ax3.set_ylabel("|Residuals|")
    ax3.set_title("(c)Scale-Location Plot")

    #计算库克距离并绘制库克距离图:
    model = sm.OLS(residuals, sm.add_constant(obs)).fit()  # 应用OLS回归模型
    influence = model.get_influence()
    cooks_dist = influence.cooks_distance[0]

    ax4=plt.subplot(224)
    ax4.scatter(obs, cooks_dist)
    ax4.axhline(y=4*cooks_dist.mean(), linestyle='dashed')
    ax4.set_xlabel("Observation")
    ax4.set_ylabel("Cook's Distance")
    ax4.set_title("(d)Cook's Distance Plot")
    plt.tight_layout()
    plt.show()

Multivariable_statistics.py

2>对上述代码进行简单调用:

复制代码
import Multivariable_statistics as Ms
import numpy as np
import pandas as pd
p=np.linspace(20,60,100)   #预测值
r=np.random.uniform(-1,1,100)   #残差值
print(r)
Ms.Residuals_plot(residuals=r,predicts=p)   #残差四图


#对于其他两个图的使用教程,以p,r数据为例
#得到一组100*2的数据
df=pd.DataFrame(p,columns=['p'])
df['r']=r
df['y']=np.linspace(50,80,100)   #预测值
print(df)

Ms.Corr_heatmap(df)    #皮尔逊相关系数的热力图
Ms.VIF_calculate(df,'y')        #VIF检验值以及图

3>结果图如下: