概率论和数理统计(四)方差分析与回归分析

前言

实际场景中,也需要研究两个变量的关系.检验也可能出现两个以上的总体.

方差分析

假设检验中，若需检验 H 0 : μ 1 = μ 2 ， H 1 : μ 1 ≠ μ 2 H_0:μ_1=μ_2，H_1:μ_1 \not=μ_2 H0:μ1=μ2，H1:μ1=μ2，则可用t检验( σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2未知)，但如果有两个以上的总体需要检验呢?
H 0 : μ 1 = μ 2 = L = μ s ， H 1 : μ 1 , μ 2 , L , μ s 不全相等 H_0:μ_1=μ_2=L=μ_s，H_1:μ_1,μ_2,L,μ_s不全相等 H0:μ1=μ2=L=μs，H1:μ1,μ2,L,μs不全相等

这是普遍存在的问题，影响一事物的因素往往很多的，如农业生产中，影响水稻产量的因素可能有：种子、肥料、气象、耕作等；同一种因素下也会有不同的水平状态. 有些因素影响较大,而有些转小,方差分析可以找不那些较显著影响产量的因素.

基本概念

试验指标：在试验中要考察的指标。
因素(因子)：影响试验指标的条件。包括可控因素和不可控因素。
单因素试验：在一项试验中只有一个因素在改变的试验。
多因素试验：在一项试验中多于一个因素在改变的试验。
水平：因素所处的状态(每组试验).每个水平下取得的观测值一定是数值型变量，且每个水平下的观测值代表着一个独立的总体分布

方差分析的三个前提假定

单因素试验的方差分析

单因素方差分析的数据模型如下

为了导出检验统计量,我们使用平方和的分解

X ˉ 是数据的总平均 \bar{X}是数据的总平均 Xˉ是数据的总平均. S T 为总偏差 S_T为总偏差 ST为总偏差,反应全部试验数据的差异.同理,以水平 A j A_j Aj得

S E 为误差平方和 S_E为误差平方和 SE为误差平方和,反应水平 A j A_j Aj内,样本观察值与样本均值的误差
S A 为 u 效应平方和 S_A为u效应平方和 SA为u效应平方和,反应水平 A j A_j Aj间,样本均值与数据总平均的差异

统计量构造

由定理可知均方为卡方统计量：

证明过程如下

检验水平和检验表格

得出检验表格

若给定一个显著水平α=0.05，求出F值,查得P-value(以前没有统计软件的时候，大家是查表来找到显著性水平0.05时对应的F临界值)

P-value>0.05，说明：组间误差不显著＞组内误差，接受 H 0 H_0 H0
P-value<0.05，说明：组间误差不显著<组内误差，拒绝 H 0 H_0 H0

双因素试验的方差分析

与单因素试验的方差分析差不多,同理得检验表格

回归分析

回归分析是处理自变量与因变量之间的关系的一种统计方法和技术。而变量间的关系一般有两种：

确定关系，又称函数关系，可用 y = f ( x ) y=f(x) y=f(x)表示。当确定自变量后，因变量被其唯一确定。
相关关系，又称统计关系，它表示变量间密切关联但不能由某个或某些变量唯一确定另一个变量。例如存款和收入密切相关，但收入高并不一定存款高，因为影响存款的因素还有很多，如通货膨胀、投资意识、消费观念。

回归分析就是研究变量间相关关系的一种统计方法。