机器学习数学基础：40.结构方程模型（SEM）中卡方值与卡方自由度比

结构方程模型（SEM）中卡方值与卡方自由度比教程

在结构方程模型分析里，卡方值和卡方自由度比是评估模型拟合程度的重要指标，下面为大家详细介绍。

一、卡方值（CMIN）

（一）基本概念与别称

卡方值，也被叫做差异值、差异值函数、似然比卡方等，英文缩写为CMIN，符号表示为(\chi^{2}) ，用于衡量样本协方差矩阵与隐含协方差矩阵之间的差异。

（二）计算方法

在极大似然法（ML法）或广义最小二乘法（GLS法）中，卡方值的计算公式是 (CMIN = (N - 1)FMIN) 。这里的 (N) 代表样本数量，也就是你收集的数据里包含的样本个数，比如调查了100个学生，(N) 就是100；(FMIN) 是通过ML或GLS法估计得到的拟合函数值，它是模型运算过程中的一个中间结果。

（三）评估模型拟合的判断标准

完全拟合情况：当卡方值为0 时，这意味着样本协方差矩阵和隐含协方差矩阵完全一样，也就是设定的模型和实际数据完美匹配。像饱和模型，它包含了所有可能的参数关系，所以卡方值就是0 。
显著性判断：在统计检验里，我们还会看 (p) 值。如果 (p < 0.05) ，就表明样本协方差矩阵和隐含协方差矩阵有明显差异，说明模型和实际数据拟合得不太好；要是 (p > 0.05) ，则说明两者差异不显著，模型与数据拟合较好。

（四）卡方值的影响因素

样本量的影响：样本量越大，卡方值越容易变得显著。比如原本小样本时模型拟合看起来还行，但增加样本量后，卡方值可能就会变大，导致模型被拒绝的概率增加。这是因为大样本能捕捉到更多细微差异。
变量数量的影响：模型里的变量越多，卡方值越容易膨胀。因为变量多了，它们之间的相关关系变得复杂，模型假设的变量关系和实际数据中的关系可能对不上，产生矛盾，使得模型拟合变差。
数据分布的影响：卡方值对数据的多变量正态性非常敏感。如果样本数据不满足多变量正态分布，卡方值就容易变得显著，影响对模型拟合的判断。

（五）在模型分析中的地位

卡方值是最基础的拟合度指标，很多其他拟合度指标，比如适配度指数（GFI）、调整后适配度指数（AGFI）、赤池信息准则（AIC）等，都是以卡方值为基础计算出来的。所以在结构方程模型的报告分析里，通常都会有卡方值这一项。

二、卡方自由度比

（一）基本概念

在结构方程模型中，模型估计的自由参数越多，自由度就越小，模型也会越复杂，拟合难度增大。同时，样本数增多会让卡方值膨胀，影响模型拟合判断。而卡方自由度比，就是同时考虑自由度和卡方值大小，用卡方值除以自由度得到的比值，也叫标准化卡方值、规范卡方值。

（二）评估模型拟合的判断标准

不同学者对合理的卡方自由度比有不同建议：

Wheaton等（1977）认为卡方自由度比应小于5才合理。
Carmines和McIver（1981）建议介于1 - 2或1 - 3之间，模型拟合才可接受。
Marsh和Hocevar觉得应低于2才合理。
Kline（2005）认为3以内可接受。
Schumacker和Lomax（2004）认为5以内也能接受。
Byrne（1989）提出超过2就表示模型拟合不足。

综合来看，一般认为卡方自由度比小于1 时，模型存在过度拟合问题；在1 - 3之间，模型拟合较好；较为宽松的标准是不超过5 ，超过这个范围，模型拟合度就比较差了。