第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归

基本概念

变量之间的关系

基本概念

变量之间的关系

变量之间的关系，一般可以分成两类，确定性关系和非确定性的依存关系。

（1）确定性关系

如果一个变量的值能被一个或若干个其他变量值按某一规律唯一的确定，则这类变量之间就具有完全确定的关系。可以写成如下形式：

这里就是"按某一规律唯一的确定"中的那个唯一的规律。确定性关系通常也称为函数关系。事实上，上式就是我们熟悉的多元函数。其中为自变量，为因变量。

例如：假设每吨水的价格为10元时，居民应缴纳水费（元），与用水量（吨）之间的关系就是一个确定性关系，确定性关系如下：

（2）非确定性关系

如果一个变量的值与一个或若干个其他变量值之间存在着密切的数量关系，却无法由的值精确求出。在基于大量统计数据的基础之上，可以判别这类变量之间的数量关系具有一定的规律性，称为统计相关关系。

例如：居民消费支出，与可支配收入之间存在着密切的数量关系。在一定范围内，可支配收入增加，居民的消费支出也会相应增加。但是，根据可支配收入并不能精确求出消费支出。也就是它们之间的关系是非确定性的。

回归分析

回归分析是研究某一被解释变量（因变量），与另一个或多个解释变量（自变量）间的依存关系，其目的在于根据已知的解释变量值来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时，所研究的现象或对象称为被解释变量。 它是分析的对象，把引起这一现象变化的因素称为解释变量。它是引起这一现象变化的原因。

按照回归分析模型中自变量的个数，分为一元回归分析 和多元回归分析。一元回归分析是指分析模型中只有一个自变量，多元回归分析是指回归分析模型中有两个或两个以上的自变量。

按照回归分析模型中参数与被解释变量（因变量 ）之间是否线性，分为线性回归分析 和非线性回归分析。注意这里是针对参数，而不是自变量。

本文将重点研究**一元线性回归分析，**也就是文章标题所写的"简单线性回归"。

一元线性回归模型

总体回归函数

假若我们要研究的问题是：某市城镇居民家庭的可支配收入和消费支出之间的关系。则全市城镇居民家庭构成了研究的总体。某市全部城镇居民家庭可支配收入和消费支出统计数据如下：

|---------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------|
| 可支配收入 | 消费支出 | 户数 | 平均消费支出 |
| | | | |
| | | | |
| ...... | ...... | ...... | ...... |
| | | | |
| ...... | ...... | ...... | ...... |
| | | | |

第1列是可支配收入，分为个不同的收入水平。

第2列是消费支出，对于某一个收入水平，总共有户家庭的消费支出数据与之对应，反映了在给定某一收入水平下，有关消费支出的条件分布 。根据条件分布可以计算出在某一收入水平下的平均消费支出，即条件均值。

可以看出，对于每一个收入水平，仅有唯一的一个条件均值与之对应。这种一一对应关系，可以表示成如下函数关系：

（1）

该函数被称为总体回归函数 （Population Regression Function, PRF），总体回归函数反映了在给定自变量下，因变量的分布的总体均值随自变量的变化关系。

总体回归函数若是线性函数，有：

（2）

其中是未知而固定 的参数，称为回归系数 （Regression Coefficients），特别地，称为截距系数，称为斜率系数。这里所谓的未知而固定，指的是通常研究的总体变量之间的关系是无法知道的，但又是客观存在的，只能根据样本数据来进行近似估计。（2）式也被称为一元线性总体回归函数。

事实上，仅仅反映了在某一收入水平下，平均消费支出水平。但是对于某一居民的家庭消费支出不一定与该水平一致。或多或少存在一些偏差。该偏差用表示。即：

则有

总体回归函数若是线性函数，则

（3）

是除可支配收入外，其他一个或多个影响消费支出的因素的综合影响，是一个不可观测的随机变量，称为随机误差项。注意到上式中下标i仅仅表达的是第i个收入水平，是一个随机变量，并不是第i个样本，所以，可以写成如下更一般的形式：

该式就是本文要讨论的一元线性回归函数。式中的各个项都是真实值，不是预测值或估计值。注意到求解总体回归函数就是求解出回归系数。下面介绍样本回归函数。

样本回归函数

根据总体可以建立总体回归函数，揭示被解释变量（因变量）随解释变量的变化而变化的规律。但在大多数实际情况中，总体的信息往往无法全部获得，我们所掌握的不过是与某些固定的值相对应的值样本，需要根据已知的样本信息去估计总体回归函数。

假设现在不知道建立总体回归函数的统计数据，仅仅掌握了来自总体的一组样本数据，例如：

根据以上样本数据拟合如下线性函数：

该式称为样本回归函数。比较该式与总体回归函数

假如无限接近，无限接近，就可以用样本回归函数值去估计总体回归函数的值，即。

估计值与真实值存在一定的误差，该偏差用表示。如下：

即

得到如下一元线性样本回归函数：

称为样本剩余项，或残差。

线性回归模型的假定

（1）线性于参数

即讨论的模型是关于参数的线性函数。即：

当然这里是一元情形，可以写成多元形式。

（2）扰动项与自变量不相关，期望值为0

即

（3）扰动项之间相互独立且服从方差相等的同一个正态分布

即

普通最小二乘法（Ordinary Least Squares，OLS）

如何根据样本数据信息估计回归系数呢？直觉告诉我们，预测值或估计值尽可能接近观测值。OLS的原理就是让残差平方和达到最小，来确定回归分析模型中的参数，也就是回归系数。即：

下面来估计和推导。由

得到残差平方和：

对于给定的样本，是关于的二元函数。即：

根据最小二乘法原理，要求使得最小。借助微积分求极值方法。上式两边分别对求偏导数，如下：

，

求偏导数，得到：

化简后得到：

（1）

（2）

(1)式两边除以n，

，即：

将其代入（2）式，求得：

化简后得到：

我们以如下样本为例：

拟合优度指标

根据最小二乘法原理，已经估计出回归系数，从而可以得到样本回归函数：

那么，如何判断拟合的效果怎么样呢？这就要使用拟合优度指标了，在介绍拟合优度指标之前。我们先证明一个恒等式。

其中，为总离差平方和，或者总平方和（Total Sum of Squares），如下计算：

为回归平方和，或者解释平方和（Explained Sum of Squares），如下计算：

为残差平方和，或者剩余平方和（Residual Sum of Squares），如下计算：

这个等式表明：因为引入模型，SST被分解成了两部分SSE和SSR。证明思路也是如此。

现在只需要证明最后一项为0即可，根据线性回归分析模型中的如下三个结论：

有：

因此

所以，

因为在样本给定的情况下，SST不会变，而最小二乘法原理是使得残差平方和最小，即SSR最小，也就是SSE最大。我们如下定义线性回归拟合优度指标：

显然，越大，拟合效果越好。一般来说，如果大于0.8，则说明拟合效果非常好。

回归系数估计量的性质

回归系数估计量的线性性

回归系数的估计量是随机变量的线性函数，这就是所谓的回归系数估计量的线性性。先给出结论：

，其中

，其中

下面一一证明。

（1）先证明估计量的线性性。根据OLS得到的如下：

将上式分子拆开，得到：

注意到：

所以得到：

如果令，则只与自变量有关，与无关，最终得到：

可以看出回归系数估计量是随机变量的线性函数。

（2）证明估计量的线性性。根据OLS得到的如下：

将

（平均值的定义）

（估计量的线性性）

代入上式，得到：

如果令，则只与自变量有关，与无关，得到

可以看出回归系数估计量是随机变量的线性函数。

回归系数估计量的无偏性

如果估计量的均值等于总体参数，则称估计量就是无偏估计量，对于回归系数估计量来说，就是

怎么理解无偏性呢。我们以为例，是使用样本数据估计得到的一个估计值，它可能比真实的总体参数要大，如果换一组样本数据，的估计值可能就比真实的总体参数要小，当然，也可能是相等的，如果通过换更多组的样本数据，得到很多个，虽然大小不一，但是它们的均值是真实值的总体参数。也就是无论你怎么更换样本数据，的值在真实值左右摆动。

（1）先证明估计量的无偏性

由回归系数估计量的线性性

，其中

以及