偏相关系数
和 复相关系数
是统计学中用于衡量变量之间关系的两个重要概念。
文章目录
偏相关系数
偏相关系数
(Partial Correlation Coefficient)用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。换句话说,偏相关系数可以剔除其他变量的干扰,更准确地反映两个变量之间的真实关系。
计算公式
假设有三个变量 X X X、 Y Y Y 和 Z Z Z,想要计算 X X X 和 Y Y Y 之间的偏相关系数,同时控制 Z Z Z 的影响。偏相关系数 r X Y . Z r_{XY.Z} rXY.Z 的计算公式如下:
r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ
其中:
- r X Y r_{XY} rXY 是 X X X 和 Y Y Y 之间的简单相关系数。
- r X Z r_{XZ} rXZ 是 X X X 和 Z Z Z 之间的简单相关系数。
- r Y Z r_{YZ} rYZ 是 Y Y Y 和 Z Z Z 之间的简单相关系数。
解释
偏相关系数的值介于 -1 和 1 之间。正值表示 X X X 和 Y Y Y 之间存在正向关系,负值表示存在负向关系。值越接近 1 或 -1,表示关系越强;值越接近 0,表示关系越弱。
偏相关系数
例子
假设正在研究学生的数学成绩( X X X)、阅读成绩( Y Y Y)和学习时间( Z Z Z)之间的关系。想要知道数学成绩和阅读成绩之间的净相关性,剔除学习时间的影响。
-
数据收集:收集一组学生的数学成绩、阅读成绩和学习时间的数据。假设有以下数据:
- 数学成绩 X X X:80, 85, 90, 75, 95
- 阅读成绩 Y Y Y:70, 75, 80, 65, 85
- 学习时间 Z Z Z:10, 12, 14, 8, 16
-
计算简单相关系数:
- r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X 和 Y Y Y 之间的相关系数。
r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r_{XY} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} rXY=∑(Xi−Xˉ)2∑(Yi−Yˉ)2 ∑(Xi−Xˉ)(Yi−Yˉ)
计算结果 r X Y = 0.98 r_{XY} = 0.98 rXY=0.98。 - r X Z r_{XZ} rXZ:计算 X X X 和 Z Z Z 之间的相关系数。
r X Z = ∑ ( X i − X ˉ ) ( Z i − Z ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{XZ} = \frac{\sum (X_i - \bar{X})(Z_i - \bar{Z})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Z_i - \bar{Z})^2}} rXZ=∑(Xi−Xˉ)2∑(Zi−Zˉ)2 ∑(Xi−Xˉ)(Zi−Zˉ)
计算结果 r X Z = 0.97 r_{XZ} = 0.97 rXZ=0.97。 - r Y Z r_{YZ} rYZ:计算 Y Y Y 和 Z Z Z 之间的相关系数。
r Y Z = ∑ ( Y i − Y ˉ ) ( Z i − Z ˉ ) ∑ ( Y i − Y ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{YZ} = \frac{\sum (Y_i - \bar{Y})(Z_i - \bar{Z})}{\sqrt{\sum (Y_i - \bar{Y})^2 \sum (Z_i - \bar{Z})^2}} rYZ=∑(Yi−Yˉ)2∑(Zi−Zˉ)2 ∑(Yi−Yˉ)(Zi−Zˉ)
计算结果 r Y Z = 0.96 r_{YZ} = 0.96 rYZ=0.96。
- r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X 和 Y Y Y 之间的相关系数。
-
计算偏相关系数 :
r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ代入数值:
r X Y . Z = 0.98 − 0.97 ⋅ 0.96 ( 1 − 0.9 7 2 ) ( 1 − 0.9 6 2 ) = 0.24 r_{XY.Z} = \frac{0.98 - 0.97 \cdot 0.96}{\sqrt{(1 - 0.97^2)(1 - 0.96^2)}} = 0.24 rXY.Z=(1−0.972)(1−0.962) 0.98−0.97⋅0.96=0.24
这意味着在控制学习时间的影响后,数学成绩和阅读成绩之间存在较弱但显著的正相关关系。
复相关系数
复相关系数
(Multiple Correlation Coefficient)用于衡量一个变量与一组其他变量之间的线性相关程度。复相关系数通常用于多元回归分析中,表示因变量与多个自变量之间的总体相关性。
计算公式
假设有一个因变量 Y Y Y 和一组自变量 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk,复相关系数 R Y . X 1 X 2... X k R_{Y.X1X2...Xk} RY.X1X2...Xk 的计算公式如下:
R Y . X 1 X 2... X k = 1 − S S R S S T R_{Y.X1X2...Xk} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2...Xk=1−SSTSSR
其中:
- S S R SSR SSR 是回归平方和(Sum of Squares due to Regression)。
- S S T SST SST 是总平方和(Total Sum of Squares)。
解释
复相关系数的值介于 0 和 1 之间。值越接近 1,表示因变量 Y Y Y 与自变量组 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk 之间的线性关系越强;值越接近 0,表示关系越弱
例子
假设正在研究房价( Y Y Y)与房屋面积( X 1 X_1 X1)、地理位置( X 2 X_2 X2)和房龄( X 3 X_3 X3)之间的关系。想要知道房价与这三个因素的总体相关性。
-
数据收集:收集一组房屋的房价、面积、地理位置和房龄的数据。假设有以下数据:
- 房价 Y Y Y:200, 250, 300, 150, 350
- 房屋面积 X 1 X_1 X1:100, 120, 140, 80, 160
- 地理位置 X 2 X_2 X2:5, 7, 9, 3, 11
- 房龄 X 3 X_3 X3:10, 8, 6, 12, 4
-
多元回归分析 :进行多元回归分析,得到回归平方和 S S R SSR SSR 和总平方和 S S T SST SST。
- S S R SSR SSR:回归平方和,表示模型解释的变异量。
- S S T SST SST:总平方和,表示总变异量。
假设通过多元回归分析得到 S S R = 25000 SSR = 25000 SSR=25000 和 S S T = 30000 SST = 30000 SST=30000。
-
计算复相关系数 :
R Y . X 1 X 2 X 3 = 1 − S S R S S T R_{Y.X1X2X3} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2X3=1−SSTSSR代入数值:
R Y . X 1 X 2 X 3 = 1 − 25000 30000 = 1 − 0.833 = 0.167 = 0.41 R_{Y.X1X2X3} = \sqrt{1 - \frac{25000}{30000}} = \sqrt{1 - 0.833} = \sqrt{0.167} = 0.41 RY.X1X2X3=1−3000025000 =1−0.833 =0.167 =0.41
这意味着房价与房屋面积、地理位置和房龄之间存在中等程度的线性关系。
总结
- 偏相关系数:用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。
- 复相关系数:用于衡量一个变量与一组其他变量之间的线性相关程度。