偏相关关系 和 复相关关系 的定义 及 具体的案例

偏相关系数复相关系数 是统计学中用于衡量变量之间关系的两个重要概念。


文章目录


偏相关系数

偏相关系数(Partial Correlation Coefficient)用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。换句话说,偏相关系数可以剔除其他变量的干扰,更准确地反映两个变量之间的真实关系。

计算公式

假设有三个变量 X X X、 Y Y Y 和 Z Z Z,想要计算 X X X 和 Y Y Y 之间的偏相关系数,同时控制 Z Z Z 的影响。偏相关系数 r X Y . Z r_{XY.Z} rXY.Z 的计算公式如下:

r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

其中:

  • r X Y r_{XY} rXY 是 X X X 和 Y Y Y 之间的简单相关系数。
  • r X Z r_{XZ} rXZ 是 X X X 和 Z Z Z 之间的简单相关系数。
  • r Y Z r_{YZ} rYZ 是 Y Y Y 和 Z Z Z 之间的简单相关系数。
解释

偏相关系数的值介于 -1 和 1 之间。正值表示 X X X 和 Y Y Y 之间存在正向关系,负值表示存在负向关系。值越接近 1 或 -1,表示关系越强;值越接近 0,表示关系越弱。

偏相关系数

例子

假设正在研究学生的数学成绩( X X X)、阅读成绩( Y Y Y)和学习时间( Z Z Z)之间的关系。想要知道数学成绩和阅读成绩之间的净相关性,剔除学习时间的影响。

  1. 数据收集:收集一组学生的数学成绩、阅读成绩和学习时间的数据。假设有以下数据:

    • 数学成绩 X X X:80, 85, 90, 75, 95
    • 阅读成绩 Y Y Y:70, 75, 80, 65, 85
    • 学习时间 Z Z Z:10, 12, 14, 8, 16
  2. 计算简单相关系数

    • r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X 和 Y Y Y 之间的相关系数。
      r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r_{XY} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} rXY=∑(Xi−Xˉ)2∑(Yi−Yˉ)2 ∑(Xi−Xˉ)(Yi−Yˉ)
      计算结果 r X Y = 0.98 r_{XY} = 0.98 rXY=0.98。
    • r X Z r_{XZ} rXZ:计算 X X X 和 Z Z Z 之间的相关系数。
      r X Z = ∑ ( X i − X ˉ ) ( Z i − Z ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{XZ} = \frac{\sum (X_i - \bar{X})(Z_i - \bar{Z})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Z_i - \bar{Z})^2}} rXZ=∑(Xi−Xˉ)2∑(Zi−Zˉ)2 ∑(Xi−Xˉ)(Zi−Zˉ)
      计算结果 r X Z = 0.97 r_{XZ} = 0.97 rXZ=0.97。
    • r Y Z r_{YZ} rYZ:计算 Y Y Y 和 Z Z Z 之间的相关系数。
      r Y Z = ∑ ( Y i − Y ˉ ) ( Z i − Z ˉ ) ∑ ( Y i − Y ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{YZ} = \frac{\sum (Y_i - \bar{Y})(Z_i - \bar{Z})}{\sqrt{\sum (Y_i - \bar{Y})^2 \sum (Z_i - \bar{Z})^2}} rYZ=∑(Yi−Yˉ)2∑(Zi−Zˉ)2 ∑(Yi−Yˉ)(Zi−Zˉ)
      计算结果 r Y Z = 0.96 r_{YZ} = 0.96 rYZ=0.96。
  3. 计算偏相关系数
    r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

    代入数值:
    r X Y . Z = 0.98 − 0.97 ⋅ 0.96 ( 1 − 0.9 7 2 ) ( 1 − 0.9 6 2 ) = 0.24 r_{XY.Z} = \frac{0.98 - 0.97 \cdot 0.96}{\sqrt{(1 - 0.97^2)(1 - 0.96^2)}} = 0.24 rXY.Z=(1−0.972)(1−0.962) 0.98−0.97⋅0.96=0.24

这意味着在控制学习时间的影响后,数学成绩和阅读成绩之间存在较弱但显著的正相关关系。


复相关系数

复相关系数(Multiple Correlation Coefficient)用于衡量一个变量与一组其他变量之间的线性相关程度。复相关系数通常用于多元回归分析中,表示因变量与多个自变量之间的总体相关性。

计算公式

假设有一个因变量 Y Y Y 和一组自变量 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk,复相关系数 R Y . X 1 X 2... X k R_{Y.X1X2...Xk} RY.X1X2...Xk 的计算公式如下:

R Y . X 1 X 2... X k = 1 − S S R S S T R_{Y.X1X2...Xk} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2...Xk=1−SSTSSR

其中:

  • S S R SSR SSR 是回归平方和(Sum of Squares due to Regression)。
  • S S T SST SST 是总平方和(Total Sum of Squares)。
解释

复相关系数的值介于 0 和 1 之间。值越接近 1,表示因变量 Y Y Y 与自变量组 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk 之间的线性关系越强;值越接近 0,表示关系越弱

例子

假设正在研究房价( Y Y Y)与房屋面积( X 1 X_1 X1)、地理位置( X 2 X_2 X2)和房龄( X 3 X_3 X3)之间的关系。想要知道房价与这三个因素的总体相关性。

  1. 数据收集:收集一组房屋的房价、面积、地理位置和房龄的数据。假设有以下数据:

    • 房价 Y Y Y:200, 250, 300, 150, 350
    • 房屋面积 X 1 X_1 X1:100, 120, 140, 80, 160
    • 地理位置 X 2 X_2 X2:5, 7, 9, 3, 11
    • 房龄 X 3 X_3 X3:10, 8, 6, 12, 4
  2. 多元回归分析 :进行多元回归分析,得到回归平方和 S S R SSR SSR 和总平方和 S S T SST SST。

    • S S R SSR SSR:回归平方和,表示模型解释的变异量。
    • S S T SST SST:总平方和,表示总变异量。

    假设通过多元回归分析得到 S S R = 25000 SSR = 25000 SSR=25000 和 S S T = 30000 SST = 30000 SST=30000。

  3. 计算复相关系数
    R Y . X 1 X 2 X 3 = 1 − S S R S S T R_{Y.X1X2X3} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2X3=1−SSTSSR

    代入数值:
    R Y . X 1 X 2 X 3 = 1 − 25000 30000 = 1 − 0.833 = 0.167 = 0.41 R_{Y.X1X2X3} = \sqrt{1 - \frac{25000}{30000}} = \sqrt{1 - 0.833} = \sqrt{0.167} = 0.41 RY.X1X2X3=1−3000025000 =1−0.833 =0.167 =0.41

这意味着房价与房屋面积、地理位置和房龄之间存在中等程度的线性关系。


总结

  • 偏相关系数:用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。
  • 复相关系数:用于衡量一个变量与一组其他变量之间的线性相关程度。

相关推荐
阿七想学习1 分钟前
数据结构《排序》
java·数据结构·学习·算法·排序算法
soulteary7 分钟前
使用 AI 辅助开发一个开源 IP 信息查询工具:一
人工智能·tcp/ip·开源·ip 查询
王老师青少年编程8 分钟前
gesp(二级)(12)洛谷:B3955:[GESP202403 二级] 小杨的日字矩阵
c++·算法·矩阵·gesp·csp·信奥赛
爱补鱼的猫猫13 分钟前
2、Bert论文笔记
论文阅读·人工智能·bert
Kenneth風车43 分钟前
【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版 (1)111
算法·机器学习·分类
eternal__day1 小时前
数据结构(哈希表(中)纯概念版)
java·数据结构·算法·哈希算法·推荐算法
起名字什么的好难1 小时前
conda虚拟环境安装pytorch gpu版
人工智能·pytorch·conda
18号房客1 小时前
计算机视觉-人工智能(AI)入门教程一
人工智能·深度学习·opencv·机器学习·计算机视觉·数据挖掘·语音识别
百家方案1 小时前
「下载」智慧产业园区-数字孪生建设解决方案:重构产业全景图,打造虚实结合的园区数字化底座
大数据·人工智能·智慧园区·数智化园区
APP 肖提莫1 小时前
MyBatis-Plus分页拦截器,源码的重构(重构total总数的计算逻辑)
java·前端·算法