机器学习数学基础:40.结构方程模型(SEM)中卡方值与卡方自由度比

结构方程模型(SEM)中卡方值与卡方自由度比教程

在结构方程模型分析里,卡方值和卡方自由度比是评估模型拟合程度的重要指标,下面为大家详细介绍。

一、卡方值(CMIN)

(一)基本概念与别称

卡方值,也被叫做差异值、差异值函数、似然比卡方等,英文缩写为CMIN,符号表示为(\chi^{2}) ,用于衡量样本协方差矩阵与隐含协方差矩阵之间的差异。

(二)计算方法

在极大似然法(ML法)或广义最小二乘法(GLS法)中,卡方值的计算公式是 (CMIN = (N - 1)FMIN) 。这里的 (N) 代表样本数量,也就是你收集的数据里包含的样本个数,比如调查了100个学生,(N) 就是100;(FMIN) 是通过ML或GLS法估计得到的拟合函数值,它是模型运算过程中的一个中间结果。

(三)评估模型拟合的判断标准

  • 完全拟合情况:当卡方值为0 时,这意味着样本协方差矩阵和隐含协方差矩阵完全一样,也就是设定的模型和实际数据完美匹配。像饱和模型,它包含了所有可能的参数关系,所以卡方值就是0 。
  • 显著性判断:在统计检验里,我们还会看 (p) 值。如果 (p < 0.05) ,就表明样本协方差矩阵和隐含协方差矩阵有明显差异,说明模型和实际数据拟合得不太好;要是 (p > 0.05) ,则说明两者差异不显著,模型与数据拟合较好。

(四)卡方值的影响因素

  • 样本量的影响:样本量越大,卡方值越容易变得显著。比如原本小样本时模型拟合看起来还行,但增加样本量后,卡方值可能就会变大,导致模型被拒绝的概率增加。这是因为大样本能捕捉到更多细微差异。
  • 变量数量的影响:模型里的变量越多,卡方值越容易膨胀。因为变量多了,它们之间的相关关系变得复杂,模型假设的变量关系和实际数据中的关系可能对不上,产生矛盾,使得模型拟合变差。
  • 数据分布的影响:卡方值对数据的多变量正态性非常敏感。如果样本数据不满足多变量正态分布,卡方值就容易变得显著,影响对模型拟合的判断。

(五)在模型分析中的地位

卡方值是最基础的拟合度指标,很多其他拟合度指标,比如适配度指数(GFI)、调整后适配度指数(AGFI)、赤池信息准则(AIC)等,都是以卡方值为基础计算出来的。所以在结构方程模型的报告分析里,通常都会有卡方值这一项。

二、卡方自由度比

(一)基本概念

在结构方程模型中,模型估计的自由参数越多,自由度就越小,模型也会越复杂,拟合难度增大。同时,样本数增多会让卡方值膨胀,影响模型拟合判断。而卡方自由度比,就是同时考虑自由度和卡方值大小,用卡方值除以自由度得到的比值,也叫标准化卡方值、规范卡方值。

(二)评估模型拟合的判断标准

不同学者对合理的卡方自由度比有不同建议:

  • Wheaton等(1977)认为卡方自由度比应小于5才合理。
  • Carmines和McIver(1981)建议介于1 - 2或1 - 3之间,模型拟合才可接受。
  • Marsh和Hocevar觉得应低于2才合理。
  • Kline(2005)认为3以内可接受。
  • Schumacker和Lomax(2004)认为5以内也能接受。
  • Byrne(1989)提出超过2就表示模型拟合不足。

综合来看,一般认为卡方自由度比小于1 时,模型存在过度拟合问题;在1 - 3之间,模型拟合较好;较为宽松的标准是不超过5 ,超过这个范围,模型拟合度就比较差了。

相关推荐
1941s几秒前
Google Agent Development Kit (ADK) 指南 第六章:记忆与状态管理
人工智能·python·agent·adk·google agent
no_work3 分钟前
万能图像处理小助手1.1_傅里叶变化_椒盐噪声_直方图均衡等图片批量处理
图像处理·人工智能·python
twc8294 分钟前
写好提示词
人工智能·大模型·llm·提示词工程
Book思议-8 分钟前
【数据结构实战】双向链表:在指定位置插入数据
c语言·数据结构·算法·链表
guoji778811 分钟前
Gemini 3.1 Pro 混合专家系统与注意力机制深度拆解
人工智能
爱钓鱼的程序员小郭12 分钟前
3D打印全流程自动化(AI增强)
人工智能
lightqjx12 分钟前
【算法】前缀和
c++·算法·leetcode·前缀和
窝子面14 分钟前
LeetCode练题三:链表
算法·leetcode·链表
njsgcs15 分钟前
wl迭代以哪个节点为最后零件点进行计算呢,怎么实现图不变性的
人工智能
workflower19 分钟前
需求-什么时候才算完成
人工智能·机器人·集成测试·ai编程·软件需求