机器学习数学基础:40.结构方程模型(SEM)中卡方值与卡方自由度比

结构方程模型(SEM)中卡方值与卡方自由度比教程

在结构方程模型分析里,卡方值和卡方自由度比是评估模型拟合程度的重要指标,下面为大家详细介绍。

一、卡方值(CMIN)

(一)基本概念与别称

卡方值,也被叫做差异值、差异值函数、似然比卡方等,英文缩写为CMIN,符号表示为(\chi^{2}) ,用于衡量样本协方差矩阵与隐含协方差矩阵之间的差异。

(二)计算方法

在极大似然法(ML法)或广义最小二乘法(GLS法)中,卡方值的计算公式是 (CMIN = (N - 1)FMIN) 。这里的 (N) 代表样本数量,也就是你收集的数据里包含的样本个数,比如调查了100个学生,(N) 就是100;(FMIN) 是通过ML或GLS法估计得到的拟合函数值,它是模型运算过程中的一个中间结果。

(三)评估模型拟合的判断标准

  • 完全拟合情况:当卡方值为0 时,这意味着样本协方差矩阵和隐含协方差矩阵完全一样,也就是设定的模型和实际数据完美匹配。像饱和模型,它包含了所有可能的参数关系,所以卡方值就是0 。
  • 显著性判断:在统计检验里,我们还会看 (p) 值。如果 (p < 0.05) ,就表明样本协方差矩阵和隐含协方差矩阵有明显差异,说明模型和实际数据拟合得不太好;要是 (p > 0.05) ,则说明两者差异不显著,模型与数据拟合较好。

(四)卡方值的影响因素

  • 样本量的影响:样本量越大,卡方值越容易变得显著。比如原本小样本时模型拟合看起来还行,但增加样本量后,卡方值可能就会变大,导致模型被拒绝的概率增加。这是因为大样本能捕捉到更多细微差异。
  • 变量数量的影响:模型里的变量越多,卡方值越容易膨胀。因为变量多了,它们之间的相关关系变得复杂,模型假设的变量关系和实际数据中的关系可能对不上,产生矛盾,使得模型拟合变差。
  • 数据分布的影响:卡方值对数据的多变量正态性非常敏感。如果样本数据不满足多变量正态分布,卡方值就容易变得显著,影响对模型拟合的判断。

(五)在模型分析中的地位

卡方值是最基础的拟合度指标,很多其他拟合度指标,比如适配度指数(GFI)、调整后适配度指数(AGFI)、赤池信息准则(AIC)等,都是以卡方值为基础计算出来的。所以在结构方程模型的报告分析里,通常都会有卡方值这一项。

二、卡方自由度比

(一)基本概念

在结构方程模型中,模型估计的自由参数越多,自由度就越小,模型也会越复杂,拟合难度增大。同时,样本数增多会让卡方值膨胀,影响模型拟合判断。而卡方自由度比,就是同时考虑自由度和卡方值大小,用卡方值除以自由度得到的比值,也叫标准化卡方值、规范卡方值。

(二)评估模型拟合的判断标准

不同学者对合理的卡方自由度比有不同建议:

  • Wheaton等(1977)认为卡方自由度比应小于5才合理。
  • Carmines和McIver(1981)建议介于1 - 2或1 - 3之间,模型拟合才可接受。
  • Marsh和Hocevar觉得应低于2才合理。
  • Kline(2005)认为3以内可接受。
  • Schumacker和Lomax(2004)认为5以内也能接受。
  • Byrne(1989)提出超过2就表示模型拟合不足。

综合来看,一般认为卡方自由度比小于1 时,模型存在过度拟合问题;在1 - 3之间,模型拟合较好;较为宽松的标准是不超过5 ,超过这个范围,模型拟合度就比较差了。

相关推荐
QiLinkOS6 小时前
第三视觉理解徐玉生与他的商业活动(28)
大数据·c++·人工智能·算法·开源协议
龙虾PRO6 小时前
民生用能电气化提速:AI 驱动的新型能源体系落地解决方案全景
人工智能·能源
wabs6666 小时前
关于动态规划【力扣1143.最长公共子序列的思考】
算法·leetcode·动态规划
卡梅德生物科技小能手6 小时前
卡梅德生物科普:CD94(NKG2A)
人工智能·深度学习
阿拉斯攀登6 小时前
AI Agent 入门:从 ChatGPT 到自主智能体
人工智能·chatgpt·agent·ai编程·loop
码兄科技6 小时前
Java AI智能体开发实战:从零构建企业级智能应用指南
java·开发语言·人工智能
2401_859506246 小时前
AIGC赋能大漆摆件设计:从痛点分析到技术架构与实战验证
java·大数据·人工智能
剑挑星河月7 小时前
54.螺旋矩阵
java·算法·leetcode·矩阵
堆焊工艺分享7 小时前
2026-2030工业堆焊行业发展趋势:从维修辅业到智造核心工艺
大数据·人工智能
FluxArt7 小时前
Nano Banana 2 怎么用?14 种宽高比 + 4K 出图完整步骤
人工智能