偏相关关系 和 复相关关系 的定义 及 具体的案例

偏相关系数复相关系数 是统计学中用于衡量变量之间关系的两个重要概念。


文章目录


偏相关系数

偏相关系数(Partial Correlation Coefficient)用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。换句话说,偏相关系数可以剔除其他变量的干扰,更准确地反映两个变量之间的真实关系。

计算公式

假设有三个变量 X X X、 Y Y Y 和 Z Z Z,想要计算 X X X 和 Y Y Y 之间的偏相关系数,同时控制 Z Z Z 的影响。偏相关系数 r X Y . Z r_{XY.Z} rXY.Z 的计算公式如下:

r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

其中:

  • r X Y r_{XY} rXY 是 X X X 和 Y Y Y 之间的简单相关系数。
  • r X Z r_{XZ} rXZ 是 X X X 和 Z Z Z 之间的简单相关系数。
  • r Y Z r_{YZ} rYZ 是 Y Y Y 和 Z Z Z 之间的简单相关系数。
解释

偏相关系数的值介于 -1 和 1 之间。正值表示 X X X 和 Y Y Y 之间存在正向关系,负值表示存在负向关系。值越接近 1 或 -1,表示关系越强;值越接近 0,表示关系越弱。

偏相关系数

例子

假设正在研究学生的数学成绩( X X X)、阅读成绩( Y Y Y)和学习时间( Z Z Z)之间的关系。想要知道数学成绩和阅读成绩之间的净相关性,剔除学习时间的影响。

  1. 数据收集:收集一组学生的数学成绩、阅读成绩和学习时间的数据。假设有以下数据:

    • 数学成绩 X X X:80, 85, 90, 75, 95
    • 阅读成绩 Y Y Y:70, 75, 80, 65, 85
    • 学习时间 Z Z Z:10, 12, 14, 8, 16
  2. 计算简单相关系数

    • r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X 和 Y Y Y 之间的相关系数。
      r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r_{XY} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} rXY=∑(Xi−Xˉ)2∑(Yi−Yˉ)2 ∑(Xi−Xˉ)(Yi−Yˉ)
      计算结果 r X Y = 0.98 r_{XY} = 0.98 rXY=0.98。
    • r X Z r_{XZ} rXZ:计算 X X X 和 Z Z Z 之间的相关系数。
      r X Z = ∑ ( X i − X ˉ ) ( Z i − Z ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{XZ} = \frac{\sum (X_i - \bar{X})(Z_i - \bar{Z})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Z_i - \bar{Z})^2}} rXZ=∑(Xi−Xˉ)2∑(Zi−Zˉ)2 ∑(Xi−Xˉ)(Zi−Zˉ)
      计算结果 r X Z = 0.97 r_{XZ} = 0.97 rXZ=0.97。
    • r Y Z r_{YZ} rYZ:计算 Y Y Y 和 Z Z Z 之间的相关系数。
      r Y Z = ∑ ( Y i − Y ˉ ) ( Z i − Z ˉ ) ∑ ( Y i − Y ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{YZ} = \frac{\sum (Y_i - \bar{Y})(Z_i - \bar{Z})}{\sqrt{\sum (Y_i - \bar{Y})^2 \sum (Z_i - \bar{Z})^2}} rYZ=∑(Yi−Yˉ)2∑(Zi−Zˉ)2 ∑(Yi−Yˉ)(Zi−Zˉ)
      计算结果 r Y Z = 0.96 r_{YZ} = 0.96 rYZ=0.96。
  3. 计算偏相关系数
    r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1−rXZ2)(1−rYZ2) rXY−rXZ⋅rYZ

    代入数值:
    r X Y . Z = 0.98 − 0.97 ⋅ 0.96 ( 1 − 0.9 7 2 ) ( 1 − 0.9 6 2 ) = 0.24 r_{XY.Z} = \frac{0.98 - 0.97 \cdot 0.96}{\sqrt{(1 - 0.97^2)(1 - 0.96^2)}} = 0.24 rXY.Z=(1−0.972)(1−0.962) 0.98−0.97⋅0.96=0.24

这意味着在控制学习时间的影响后,数学成绩和阅读成绩之间存在较弱但显著的正相关关系。


复相关系数

复相关系数(Multiple Correlation Coefficient)用于衡量一个变量与一组其他变量之间的线性相关程度。复相关系数通常用于多元回归分析中,表示因变量与多个自变量之间的总体相关性。

计算公式

假设有一个因变量 Y Y Y 和一组自变量 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk,复相关系数 R Y . X 1 X 2... X k R_{Y.X1X2...Xk} RY.X1X2...Xk 的计算公式如下:

R Y . X 1 X 2... X k = 1 − S S R S S T R_{Y.X1X2...Xk} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2...Xk=1−SSTSSR

其中:

  • S S R SSR SSR 是回归平方和(Sum of Squares due to Regression)。
  • S S T SST SST 是总平方和(Total Sum of Squares)。
解释

复相关系数的值介于 0 和 1 之间。值越接近 1,表示因变量 Y Y Y 与自变量组 X 1 , X 2 , ... , X k X_1, X_2, \ldots, X_k X1,X2,...,Xk 之间的线性关系越强;值越接近 0,表示关系越弱

例子

假设正在研究房价( Y Y Y)与房屋面积( X 1 X_1 X1)、地理位置( X 2 X_2 X2)和房龄( X 3 X_3 X3)之间的关系。想要知道房价与这三个因素的总体相关性。

  1. 数据收集:收集一组房屋的房价、面积、地理位置和房龄的数据。假设有以下数据:

    • 房价 Y Y Y:200, 250, 300, 150, 350
    • 房屋面积 X 1 X_1 X1:100, 120, 140, 80, 160
    • 地理位置 X 2 X_2 X2:5, 7, 9, 3, 11
    • 房龄 X 3 X_3 X3:10, 8, 6, 12, 4
  2. 多元回归分析 :进行多元回归分析,得到回归平方和 S S R SSR SSR 和总平方和 S S T SST SST。

    • S S R SSR SSR:回归平方和,表示模型解释的变异量。
    • S S T SST SST:总平方和,表示总变异量。

    假设通过多元回归分析得到 S S R = 25000 SSR = 25000 SSR=25000 和 S S T = 30000 SST = 30000 SST=30000。

  3. 计算复相关系数
    R Y . X 1 X 2 X 3 = 1 − S S R S S T R_{Y.X1X2X3} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2X3=1−SSTSSR

    代入数值:
    R Y . X 1 X 2 X 3 = 1 − 25000 30000 = 1 − 0.833 = 0.167 = 0.41 R_{Y.X1X2X3} = \sqrt{1 - \frac{25000}{30000}} = \sqrt{1 - 0.833} = \sqrt{0.167} = 0.41 RY.X1X2X3=1−3000025000 =1−0.833 =0.167 =0.41

这意味着房价与房屋面积、地理位置和房龄之间存在中等程度的线性关系。


总结

  • 偏相关系数:用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。
  • 复相关系数:用于衡量一个变量与一组其他变量之间的线性相关程度。

相关推荐
风象南24 分钟前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮2 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬2 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia2 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源