概率论和数理统计(四)方差分析与回归分析

前言

实际场景中,也需要研究两个变量的关系.检验也可能出现两个以上的总体.

方差分析

假设检验中,若需检验 H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 2 H_0:μ_1=μ_2,H_1:μ_1 \not=μ_2 H0:μ1=μ2,H1:μ1=μ2,则可用t检验( σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2未知),但如果有两个以上的总体需要检验呢?
H 0 : μ 1 = μ 2 = L = μ s , H 1 : μ 1 , μ 2 , L , μ s 不全相等 H_0:μ_1=μ_2=L=μ_s,H_1:μ_1,μ_2,L,μ_s不全相等 H0:μ1=μ2=L=μs,H1:μ1,μ2,L,μs不全相等

这是普遍存在的问题,影响一事物的因素往往很多的,如农业生产中,影响水稻产量的因素可能有:种子、肥料、气象、耕作等;同一种因素下也会有不同的水平状态. 有些因素影响较大,而有些转小,方差分析可以找不那些较显著影响产量的因素.

基本概念

  • 试验指标:在试验中要考察的指标。
  • 因素(因子):影响试验指标的条件。包括可控因素和不可控因素。
  • 单因素试验:在一项试验中只有一个因素在改变的试验。
  • 多因素试验:在一项试验中多于一个因素在改变的试验。
  • 水平:因素所处的状态(每组试验).每个水平下取得的观测值一定是数值型变量,且每个水平下的观测值代表着一个独立的总体分布

方差分析的三个前提假定

单因素试验的方差分析

单因素方差分析的数据模型如下

为了导出检验统计量,我们使用平方和的分解

X ˉ 是数据的总平均 \bar{X}是数据的总平均 Xˉ是数据的总平均. S T 为总偏差 S_T为总偏差 ST为总偏差,反应全部试验数据的差异.同理,以水平 A j A_j Aj得

  • S E 为误差平方和 S_E为误差平方和 SE为误差平方和,反应水平 A j A_j Aj,样本观察值与样本均值的误差
  • S A 为 u 效应平方和 S_A为u效应平方和 SA为u效应平方和,反应水平 A j A_j Aj,样本均值与数据总平均的差异

统计量构造

由定理可知均方为卡方统计量:

证明过程如下

检验水平和检验表格

得出检验表格

若给定一个显著水平α=0.05,求出F值,查得P-value(以前没有统计软件的时候,大家是查表来找到显著性水平0.05时对应的F临界值)

  • P-value>0.05,说明:组间误差不显著>组内误差,接受 H 0 H_0 H0
  • P-value<0.05,说明:组间误差不显著<组内误差,拒绝 H 0 H_0 H0

双因素试验的方差分析

与单因素试验的方差分析差不多,同理得检验表格


回归分析

回归分析是处理自变量与因变量之间的关系的一种统计方法和技术。而变量间的关系一般有两种:

  • 确定关系,又称函数关系,可用 y = f ( x ) y=f(x) y=f(x)表示。当确定自变量后,因变量被其唯一确定。
  • 相关关系,又称统计关系,它表示变量间密切关联但不能由某个或某些变量唯一确定另一个变量。例如存款和收入密切相关,但收入高并不一定存款高,因为影响存款的因素还有很多,如通货膨胀、投资意识、消费观念。

回归分析就是研究变量间相关关系的一种统计方法。

一元线性回归

可以发现,上式由两部分组成:

  1. y = a + b x y=a+bx y=a+bx,它是自变量 x x x的确定性关系
  2. 随机误差项 ε \varepsilon ε,它是一个随机变量, 可以看成是 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)。

a,b, σ 2 \sigma^2 σ2估计

我们称 y ^ = a ^ + b ^ x \hat{y}=\hat{a}+\hat{b}x y^=a^+b^x为随机变量 Y Y Y 对 X X X的回归函数。


Q Q Q称为残差平方和 ,再对Q进一步转换

又因为 S Y Y , S x Y 已知 S_{YY},S_{xY}已知 SYY,SxY已知

线性假设的显著性检验

主要参考

数理统计9.1-方差分析(ANOVA)概念与原理

我对方差分析原理的通俗理解,请指正

概率论与数理统计知识点提炼(第九章:方差分析及回归分析)

相关推荐
maizeman1265 天前
R语言统计分析——用回归做ANOVA
回归·r语言·方差分析·anova·线性模型
DolphinDB智臾科技3 个月前
概率分布、回归分析、假设检验……用 DolphinDB 函数库快速实现概率统计分析
数据分析·回归分析·时序数据库·概率统计
小艳加油4 个月前
深入解析R语言的贝叶斯网络模型:构建、优化与预测;INLA下的贝叶斯回归;现代贝叶斯统计学方法;R语言混合效应(多水平/层次/嵌套)
r语言·贝叶斯·回归分析·inla·统计方法
夏日恋雨5 个月前
基于R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析教程
数据分析·r语言·回归分析·地理加权·统计学·半参数
阡之尘埃8 个月前
Python数据分析案例31——中国A股的月份效应研究(方差分析,虚拟变量回归)
python·数据挖掘·数据分析·回归·方差分析
WenbinYao&YouweiHu9 个月前
Exploring Impact of COVID-19 on Travel Behavior
数据分析·方差分析·新冠肺炎·车牌识别数据
leboop-L10 个月前
第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归
回归分析·线性回归·t检验·r平方·拟合优度·ols最小二乘法·一元线性回归
慢腾腾的小蜗牛1 年前
“R语言+遥感“水环境综合评价方法
开发语言·支持向量机·r语言·回归分析·遥感·水环境·遥感水体
zmjia1111 年前
基于R语言Meta分析与【文献计量分析、贝叶斯、机器学习等】多技术融合方法与应用
随机森林·机器学习·r语言·citespace·meta·贝叶斯·回归分析