偏相关关系 和 复相关关系 的定义 及 具体的案例

偏相关系数复相关系数 是统计学中用于衡量变量之间关系的两个重要概念。


文章目录


偏相关系数

偏相关系数(Partial Correlation Coefficient)用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。换句话说,偏相关系数可以剔除其他变量的干扰,更准确地反映两个变量之间的真实关系。

计算公式

假设有三个变量 X X X、 Y Y Y 和 Z Z Z,想要计算 X X X 和 Y Y Y 之间的偏相关系数,同时控制 Z Z Z 的影响。偏相关系数 r X Y . Z r_{XY.Z} rXY.Z 的计算公式如下:

r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

其中:

  • r X Y r_{XY} rXY 是 X X X 和 Y Y Y 之间的简单相关系数。
  • r X Z r_{XZ} rXZ 是 X X X 和 Z Z Z 之间的简单相关系数。
  • r Y Z r_{YZ} rYZ 是 Y Y Y 和 Z Z Z 之间的简单相关系数。
解释

偏相关系数的值介于 -1 和 1 之间。正值表示 X X X 和 Y Y Y 之间存在正向关系,负值表示存在负向关系。值越接近 1 或 -1,表示关系越强;值越接近 0,表示关系越弱。

偏相关系数

例子

假设正在研究学生的数学成绩( X X X)、阅读成绩( Y Y Y)和学习时间( Z Z Z)之间的关系。想要知道数学成绩和阅读成绩之间的净相关性,剔除学习时间的影响。

  1. 数据收集:收集一组学生的数学成绩、阅读成绩和学习时间的数据。假设有以下数据:

    • 数学成绩 X X X:80, 85, 90, 75, 95
    • 阅读成绩 Y Y Y:70, 75, 80, 65, 85
    • 学习时间 Z Z Z:10, 12, 14, 8, 16
  2. 计算简单相关系数

    • r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X 和 Y Y Y 之间的相关系数。
      r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r_{XY} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} rXY=∑(Xi−Xˉ)2∑(Yi−Yˉ)2 ∑(Xi−Xˉ)(Yi−Yˉ)
      计算结果 r X Y = 0.98 r_{XY} = 0.98 rXY=0.98。
    • r X Z r_{XZ} rXZ:计算 X X X 和 Z Z Z 之间的相关系数。
      r X Z = ∑ ( X i − X ˉ ) ( Z i − Z ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{XZ} = \frac{\sum (X_i - \bar{X})(Z_i - \bar{Z})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Z_i - \bar{Z})^2}} rXZ=∑(Xi−Xˉ)2∑(Zi−Zˉ)2 ∑(Xi−Xˉ)(Zi−Zˉ)
      计算结果 r X Z = 0.97 r_{XZ} = 0.97 rXZ=0.97。
    • r Y Z r_{YZ} rYZ:计算 Y Y Y 和 Z Z Z 之间的相关系数。
      r Y Z = ∑ ( Y i − Y ˉ ) ( Z i − Z ˉ ) ∑ ( Y i − Y ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{YZ} = \frac{\sum (Y_i - \bar{Y})(Z_i - \bar{Z})}{\sqrt{\sum (Y_i - \bar{Y})^2 \sum (Z_i - \bar{Z})^2}} rYZ=∑(Yi−Yˉ)2∑(Zi−Zˉ)2 ∑(Yi−Yˉ)(Zi−Zˉ)
      计算结果 r Y Z = 0.96 r_{YZ} = 0.96 rYZ=0.96。
  3. 计算偏相关系数
    r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

    代入数值:
    r X Y . Z = 0.98 − 0.97 ⋅ 0.96 ( 1 − 0.9 7 2 ) ( 1 − 0.9 6 2 ) = 0.24 r_{XY.Z} = \frac{0.98 - 0.97 \cdot 0.96}{\sqrt{(1 - 0.97^2)(1 - 0.96^2)}} = 0.24 rXY.Z=(1−0.972)(1−0.962) 0.98−0.97⋅0.96=0.24

这意味着在控制学习时间的影响后,数学成绩和阅读成绩之间存在较弱但显著的正相关关系。


复相关系数

复相关系数(Multiple Correlation Coefficient)用于衡量一个变量与一组其他变量之间的线性相关程度。复相关系数通常用于多元回归分析中,表示因变量与多个自变量之间的总体相关性。

计算公式

假设有一个因变量 Y Y Y 和一组自变量 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk,复相关系数 R Y . X 1 X 2... X k R_{Y.X1X2...Xk} RY.X1X2...Xk 的计算公式如下:

R Y . X 1 X 2... X k = 1 − S S R S S T R_{Y.X1X2...Xk} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2...Xk=1−SSTSSR

其中:

  • S S R SSR SSR 是回归平方和(Sum of Squares due to Regression)。
  • S S T SST SST 是总平方和(Total Sum of Squares)。
解释

复相关系数的值介于 0 和 1 之间。值越接近 1,表示因变量 Y Y Y 与自变量组 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk 之间的线性关系越强;值越接近 0,表示关系越弱

例子

假设正在研究房价( Y Y Y)与房屋面积( X 1 X_1 X1)、地理位置( X 2 X_2 X2)和房龄( X 3 X_3 X3)之间的关系。想要知道房价与这三个因素的总体相关性。

  1. 数据收集:收集一组房屋的房价、面积、地理位置和房龄的数据。假设有以下数据:

    • 房价 Y Y Y:200, 250, 300, 150, 350
    • 房屋面积 X 1 X_1 X1:100, 120, 140, 80, 160
    • 地理位置 X 2 X_2 X2:5, 7, 9, 3, 11
    • 房龄 X 3 X_3 X3:10, 8, 6, 12, 4
  2. 多元回归分析 :进行多元回归分析,得到回归平方和 S S R SSR SSR 和总平方和 S S T SST SST。

    • S S R SSR SSR:回归平方和,表示模型解释的变异量。
    • S S T SST SST:总平方和,表示总变异量。

    假设通过多元回归分析得到 S S R = 25000 SSR = 25000 SSR=25000 和 S S T = 30000 SST = 30000 SST=30000。

  3. 计算复相关系数
    R Y . X 1 X 2 X 3 = 1 − S S R S S T R_{Y.X1X2X3} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2X3=1−SSTSSR

    代入数值:
    R Y . X 1 X 2 X 3 = 1 − 25000 30000 = 1 − 0.833 = 0.167 = 0.41 R_{Y.X1X2X3} = \sqrt{1 - \frac{25000}{30000}} = \sqrt{1 - 0.833} = \sqrt{0.167} = 0.41 RY.X1X2X3=1−3000025000 =1−0.833 =0.167 =0.41

这意味着房价与房屋面积、地理位置和房龄之间存在中等程度的线性关系。


总结

  • 偏相关系数:用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。
  • 复相关系数:用于衡量一个变量与一组其他变量之间的线性相关程度。

相关推荐
8K超高清22 分钟前
巴黎奥运会8K转播科技为国产品牌自主研发设计
人工智能·科技·实时音视频·智能硬件
ZLiu6644 分钟前
机器学习——第八章 集成学习
人工智能·机器学习·集成学习
Young_Zn_Cu1 小时前
深度学习--图像分割UNet介绍及代码分析
人工智能·深度学习
水上冰石1 小时前
Deeplearning4j 目标检测的原理
人工智能·目标检测·计算机视觉
王小王-1231 小时前
基于Boost算法的贷款违约预测研究
人工智能·算法·贷款违约预测·基于boosting算法
少喝冰美式1 小时前
以知识图谱结构为Prompt框架,帮LLM快速找出因果关系生成更精准内容
人工智能·llm·prompt·知识图谱·大语言模型·产品经理·ai大模型
贝多财经1 小时前
宝众宝达IPO终止:原实控人去世时间矛盾,婚外情主角任总经理
人工智能
夜色呦2 小时前
深入探索Scikit-Learn聚类分析:方法与实践
机器学习·支持向量机·scikit-learn
黑不溜秋的2 小时前
C++ 几何算法 - 向量点乘,叉乘及其应用
c++·算法·几何学
y_dd2 小时前
【生成式人工智能-三-promote 神奇咒语&RL增强式学习&RAG】
人工智能·学习