
补充:
1、多重共线性的补充
所谓的估计标准误,指的是回归系数的标准误差。例如回归方程:
y = β0 + β1X1 + β2X2 + e
我们构建的回归方程的系数的计算得出是基于样本的。这意味着,我们每从总体中进行一次抽样,然后计算回归方程系数,得到的回归系数(β0、β1和β2)都是不同的。如此,我们反复地进行抽样计算得到多个不同的β0、β1和β2,它们都会分别服从一个抽样分布并有一个对应的标准误差。我们就将这个标准误称之为回归系数的标准误差。
我们还熟知,在对回归方程的检验中有两类检验。
一类叫做线性关系检验,它是用于判断整个回归方程是否显著的。
方法:构造F统计量: F = MSA/MSE。
一类叫做回归系数检验,它是用于判断回归方程中某一个系数是否显著不为0的。(如果不显著,证明这个变量是不必要的)。
方法:构造t统计量: T = t - 0 / σ²;这正是基于回归系数实际上是服从正态分布的, β帽 ~ N(β, Sβ),但通常我们使用估计标准误去替代不可知的总体标准误,所以使用了t分布。
估计标准误差的增大不会影响F检验。这也就说明多重共线性不会影响你整个方程的"预测能力"。方程整体还是很准的。但问题在于,t检验的分母会因此增大,t检验就更难通过。我们所设定的零假设H0: βi = 0就不得不接受了。整个回归方程就像一坨屎山代码,"能跑",但你不能解释它,"可读性"很差。
2、异方差的补充:
**Q1: 如何理解截面数据更容易导致异方差问题?
A1:**我的理解:关于这个有一个例子:要研究不同家庭的消费支出情况,自变量有家庭收入等。然而,对于家庭收入较低的家庭,由于本身收入少,其大部分支出都属于固定支出,所以它的消费支出情况相当稳定,即方差很小;而对于家庭收入较高的家庭,由于本身收入高,他们可能由于一时的习惯或者习惯决定等,消费支出情况有较大的波动,使得方差很大。而这里面,高收入群体一时的习惯或决定是难以捕捉的非关键解释变量,属于个体的天然差异性。

后续会继续异方差和自相关问题的检验与解决,等待复习到对应位置。