广义最小二乘(GLS)、可行的广义最小二乘(FGLS)

一、什么是 <math xmlns="http://www.w3.org/1998/Math/MathML"> G L S GLS </math>GLS(广义最小二乘)、 <math xmlns="http://www.w3.org/1998/Math/MathML"> F G L S FGLS </math>FGLS(可行的广义最小二乘)?

简单来说,广义最小二乘是一种考虑模型异方差和序列相关性,并消除其影响的方法。

如果有方法可以找到模型随机误差项方差-协方差矩阵的权重 ,就称为 <math xmlns="http://www.w3.org/1998/Math/MathML"> F G L S FGLS </math>FGLS。

对于异方差问题,我们在进行模型建立的时候,可以通过图示法G-Q检验Park检验来对模型的异方差问题进行检查;

对于序列相关性问题,我们通过残差-时间图 一般不容易判断,反而通过残差序列相关图容易得到相关性;

问题产生

1、异方差问题

违背CLRM(经典线性回归模型)的随机误差项同方差假设

导致 <math xmlns="http://www.w3.org/1998/Math/MathML"> O L S OLS </math>OLS方法得不到无偏、有效的参数,从而使其失效

随机误差项的方差不为常数,其值随x的变化而变化,即为异方差具体的表现。

具体表现如下图(X-Y散点图):

对模型的影响

  1. 估计参数符合无偏性,但不符合有效性
  2. 变量的显著性t检验失效,因为t检验统计量需要借助随机误差项的方差
  3. 模型预测失效,模型的预测值置信区间需要使用随机误差项的方差

检验法

  1. X-Y散点图
  2. X- <math xmlns="http://www.w3.org/1998/Math/MathML"> e i 2 e_i^2 </math>ei2散点图
  3. 解析法
      1. G-Q检验:对不同子样的残差平方和进行F检验
    1. Park检验:对残差项进行关于x的对数线性模型回归,检验参数的显著性

解决思路

如果存在异方差性,则选择加权最小二乘法;

如果不存在异方差性,则该方法与普通最小二乘法相同;

不论异方差性是否存在,直接使用该方法即可

2、随机项序列相关问题

普通最小二乘( <math xmlns="http://www.w3.org/1998/Math/MathML"> O L S OLS </math>OLS)要求线性模型的随机误差项相互独立或序列不相关。

随机误差项相关的表现形式:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> C o v ( μ i , μ j ) ≠ 0 ⇛ E ( μ i , μ j ) ≠ 0 Cov(\mu_i,\mu_j) \neq 0 \Rrightarrow E(\mu_i,\mu_j) \neq 0 </math>Cov(μi,μj)=0⇛E(μi,μj)=0

图示表现形式:

产生原因

  1. 惯性
  2. 设定偏误:模型中遗漏了显著的变量(使得随机项有系统性影响)
  3. 设定偏误:不正确的函数形式
  4. 蛛网现象
  5. 编造数据

对模型的影响

  1. 估计参数符合无偏性,但不符合有效性
  2. 变量的显著性t检验失效,因为t检验统计量需要借助随机误差项的方差
  3. 模型预测失效,模型的预测值置信区间需要使用随机误差项的方差

检验法

  1. 图示法
    1. 残差时间图
    2. 残差序列相关图
  2. 解析法
    1. 回归检验法
    2. D-W法

解决思路

广义最小二乘法(GLS)、一阶差分法、广义差分法

参数估计方法

对于模型:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> Y = X B + N Y = XB+N </math>Y=XB+N

如果存在序列相关,同时存在异方差,即有:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> E ( N ) = 0 C o v ( N N T ) = E ( N N T ) = σ 2 Ω Ω = [ w 11 w 12 ⋯ w 1 n w 21 w 22 ⋯ w 2 n ⋮ ⋮ ⋱ ⋮ w n 1 w n 2 ⋯ w n n ] 设 Ω = D D T , 用 D − 1 左乘 Y = X B + N ,得到 D − 1 Y = D − 1 X B + D − 1 N 即 Y ∗ = X ∗ B + N ∗ E(N)=0 \\ Cov(NN^T) = E(NN^T) = \sigma^2 \Omega \\ \Omega = \begin{bmatrix} {w_{11}}&{w_{12}}&{\cdots}&{w_{1n}}\\ {w_{21}}&{w_{22}}&{\cdots}&{w_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {w_{n1}}&{w_{n2}}&{\cdots}&{w_{nn}}\\ \end{bmatrix} \\ \\ 设\Omega = DD^T,用D^{-1}左乘Y = XB+N,得到 \\ D^{-1}Y = D^{-1}XB+D^{-1}N \\ 即Y^{*} = X^{*}B+N^{*} </math>E(N)=0Cov(NNT)=E(NNT)=σ2ΩΩ=⎣ ⎡w11w21⋮wn1w12w22⋮wn2⋯⋯⋱⋯w1nw2n⋮wnn⎦ ⎤设Ω=DDT,用D−1左乘Y=XB+N,得到D−1Y=D−1XB+D−1N即Y∗=X∗B+N∗

则,可以得到OLS法估计模型
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> B ^ = ( ( X ∗ ) T X ∗ ) − 1 ( X ∗ ) T Y ∗ = ( X T ( D − 1 ) T D − 1 X ) − 1 X T ( D − 1 ) T D − 1 Y = ( X T Ω − 1 X ) X T Ω − 1 Y \hat{B} = ((X^{*})^{T}X^{*})^{-1}(X^{*})^{T}Y^{*} \\ = (X^{T}(D^{-1})^{T}D^{-1}X)^{-1}X^{T}(D^{-1})^{T}D^{-1}Y \\ = (X^{T} \Omega^{-1} X)X^{T}\Omega^{-1}Y </math>B^=((X∗)TX∗)−1(X∗)TY∗=(XT(D−1)TD−1X)−1XT(D−1)TD−1Y=(XTΩ−1X)XTΩ−1Y

对原模型采用普通最小二乘法,得到随机误差项的近似估计量,构建矩阵

其中矩阵 <math xmlns="http://www.w3.org/1998/Math/MathML"> Ω \Omega </math>Ω的估计量为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> Ω = [ e ~ 1 2 e ~ 1 e ~ 2 ⋯ e ~ 1 e ~ n e ~ 2 e ~ 1 e ~ 2 2 ⋯ e ~ 2 e ~ n ⋮ ⋮ ⋱ ⋮ e ~ n e ~ 1 e ~ n e ~ 2 ⋯ e ~ n 2 ] \Omega =\begin{bmatrix} {\tilde{e}{1}^{2}}&{\tilde{e}{1}\tilde{e}{2}}&{\cdots}&\tilde{e}{1}\tilde{e}{n}\\ {\tilde{e}{2}\tilde{e}{1}}&{\tilde{e}{2}^{2}}&{\cdots}&{\tilde{e}{2}\tilde{e}{n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {\tilde{e}{n}\tilde{e}{1}}&{\tilde{e}{n}\tilde{e}{2}}&{\cdots}&{\tilde{e}_{n}^{2}}\\ \end{bmatrix} </math>Ω=⎣ ⎡e~12e~2e~1⋮e~ne~1e~1e~2e~22⋮e~ne~2⋯⋯⋱⋯e~1e~ne~2e~n⋮e~n2⎦ ⎤

二、GLS、FGLS用于解决什么问题?

广义最小二乘用于解决线性模型异方差和序列相关性问题,其问题具体可以分为三种情况。

  1. 存在异方差,但不存在序列相关性

    对于该情形,可以采用加权最小二乘法,给随机误差项赋予不同的权重,来消除自变量对随机误差项的影响

  2. 同时存在异方差和序列相关性

    对于该情形,可以采用广义最小二乘法,同时解决模型异方差和序列相关性问题

  3. 不存在异方差,但存在序列相关性

    对于该情形,可以采用广义最小二乘法,解决模型序列相关问题

  1. 如果模型不存在异方差,采用广义最小二乘,与普通最小二乘法相同
  2. 不论是否存在异方差,只要存在序列相关性问题,皆可使用广义最小二乘法

三、GLS、FGLS实际应用

该实证分析金砖五国对外投资在各国不同经济条件下造成的国内经济影响

模型建立:

其中:Y表示GDP,K表示投入的资本,L表示投入的劳动力,FDI表示外国直接投资,INF表示通货膨胀,LL表示流动负债,HC表示人力资本,TO表示贸易开发度,FDITO是FDI与TO的相互作用项,FDIINF是FDI与通货膨胀的相互作用项,FDIHC是FDI与HC的相互作用项,FDIILL是FDI与LL的相互作用项。

模型方程:

异方差和序列相关性检验:

结果显示存在异方差和序列相关性,因此采用FGLS方法

采用FGLS进行的回归分析如下:

第一组回归不包含交互项;其余四组均考虑不同的交互项。模型显示外国直接投资单独对经济增长没有产生任何影响,而资本投入和劳动力投入对增长有显著的正向影响。在五组数据中,流动负债也对经济有正向影响。而贸易开放度、通货膨胀和人力资本单独对经济增长没有影响。值得关注的是,在2-4组数据中加入交互项后,其交互作用均会对经济增长产生显著影响。

相关推荐
搞大屏的小北 BI2 小时前
国内旅游:现状与未来趋势分析
信息可视化·数据分析·旅游·数据可视化·bi 工具
Hello.Reader3 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
安静的_显眼包O_o3 小时前
【数据分析】DataFrame.query()
数据挖掘·数据分析·pandas
羊小猪~~5 小时前
机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+
人工智能·python·机器学习·数据挖掘·数据分析·回归·时序数据库
凭栏落花侧10 小时前
决策树:简单易懂的预测模型
人工智能·算法·决策树·机器学习·信息可视化·数据挖掘·数据分析
bin915312 小时前
【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
大神薯条老师18 小时前
Python从入门到高手4.3节-掌握跳转控制语句
后端·爬虫·python·深度学习·机器学习·数据分析
LHNC1 天前
2024.9.29 问卷数据分析
数据分析
知识分享小能手1 天前
mysql学习教程,从入门到精通,SQL 修改表(ALTER TABLE 语句)(29)
大数据·开发语言·数据库·sql·学习·mysql·数据分析