第四章 古典线性回归模型
在引论中,我们推出了满足凯恩斯条件的消费函数与收入有关的一个最普通模型:C=α+βX+ε,其中α>0,0<β<1ε是一个随机扰动。这是一个标准的古典线性回归模型。假如我们得到如下例1的数据
例1 可支配个人收入和个人消费支出
年份 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
可支配收入 751.6 779.2 810.3 8.7 857.5 847.9 906.8 942.9 988.8 1015.7
个人消费 672.1 696.8 737.1 767.9 762.8 779.4 823.1 8.3 903.2 927.6
来源:数据来自总统经济报告,美国印刷局,华盛顿特区,1984。 (收入和支出全为1972年的十亿美元)
一、线性回归模型及其假定 一般地,被估计模型具有如下形式: yi=+βxi+εi,i=1,…,n,
其中y是因变量或称为被解释变量,x是自变量或称为解释变量,i标志n个样本观测值中的一个。这个形式一般被称作y对x的总体线性回归模型。在此背景下,y称为被回归量,x称为回归量。
构成古典线性回归模型的一组基本假设为: 1. 函数形式:yi=+βxi+εi,i=1,…,n, 2. 干扰项的零均值:对所有i,有:E[εi]=0。
3. 同方差性:对所有i,有:Var[εi]=σ2,且是一个常数。 4. 无自相关:对所有i≠j,则Cov[εi,εj]=0。
5. 回归量和干扰项的非相关:对所有i和j有Cov[xi,εj]=0。 6. 正态性:对所有i,εi满足正态分布N(0,)。 模型假定的几点说明:
1、函数形式及其线性模型的转换 具有一般形式
22f(yi)g(xi)i
对任何形式的g(x)都符合我们关于线性模型的定义。
[例] 一个常用的函数形式是对数线性模型:
yAx。
取对数得:
(lnA) lnylnx。
这被称作不变弹性形式。在这个方程中,y对于x的变化的弹性是
dy/ydlny, dx/xdlnx它不随x而变化。与之相反,线性模型的弹性是:
dydxyxdyx。 dxxxx对数线性模型通常用来估计需求函数和生产函数。
尽管线性模型具有巨大的灵活性,但在实际中存在着大量的非线性模型的形式。 例如,任何变换也不能将
y转化为线性回归模型。
2、回归量
1和yx(0<<1) x对于回归量即解释变量我们有两种处理方法,第一种将X设定为非随机变量,第二种方法将X设定为随机变量。
1)当X为非随机变量
xi的值在yi的概率分布中是已知的常数。这条假定暗示yi的每一个值都是一个概率分布的观察值,这个概率分布具有均值
E[yi|xi]E[xii]xiE[i]xi
和方差
Var[yi|xi]Var[xii]Var[i]2。
此外,有必要假定,对n≥1
112Sxx(xix) nni是一个有限正数,这个假定被称作识别条件,若xi没有任何变化,我们所有的观测值将落在一条垂直线上,我们的观测数据将不允许我们作出关于回归+βx的任何推断。这个识别条件等同于子样的极差max(X1,…,Xn)-min(X1,…,Xn)≠0。
2)当X为随机变量
若x被当作一个随机变量,则假定1成为一个对y和x的联合分布的陈述。 我们就用条件期望和方差来处理。 3、随机干扰项
1)如果干扰项不是零均值,即E[εi]=μ,对所有的i,则+βx+εi等同于(+μ)+βx+(εi-μ),令′=+μ及εi′=εi-μ可得到模型,yx,此模型满足我们原始模型的要求。
2)观测值中的随机部分假定是不相关的: E[εiεj]=0 对所有i不等于j。 这被称为非自相关。 二、最小二乘法 1 最小二乘系数
总体回归是E[yi|xi]= +βxi,而我们对E[yi|xi]的估计记作
ˆiabxi。 y和第i的数据点相联系的干扰项是
iyixi
对a和b的任何值,我们用残差
eiyiabxi
来估计εi,从这些定义可知:
yixii
abxiei。
对任何一对值a和b,残差平方和是:
ei2i(yiabxi)2
i最小二乘法系数就是使这个拟合标准达到最小的a和b的值。最小化的一阶条件是
(iei2)2(yiabxi)(1) ai 2和
(yiiabxi)0
(iei2)2(yiabxi)(x1)0 bi 2x(yiiiabxi)0
将上两式展开合并同类项后得到正规方程组
yinaixib, (1) ixyiixiaxi2b (2) ii(1)式暗示
ei1ni0,而(2)式暗示Xiei0
i为了得到解,我们首先用n除(1)结果是
yabx
最小二乘回归线通过均值点。现在分离a:
aybx (3)
有了a后,我们可以求解(2)得到b。首先,ixinx。将此和(3)代入(2)并重新安排各项。
xyiiinxybxi2nx2
i或
bixiyinxyixi2nx2i(xix)(yiy)i(xix)2
最小的残差平方和,对a和b的二阶微商矩阵是
2(iei2)/a222(iei)/ba2(iei2)/ab2n222(iei)/b2ixi2ixi . 22ixi我们必须表明这是一个正定矩阵,两个对角元素永远为正,所以仅需证明行列式为正,
22行列式为(4n)ixi4(ixi)但ixinx,所以行列式为
4nxi2nx24n(xix)2, ii由识别条件得知这是一个正值。这样a和b是平方和的最小化因子。
2 回归拟合的评价 1)回归量x是非随机变量 总变差是离差的平方和:
SST(yiy)2
i(yiiˆiy)2ei22eiyˆi y)2(yii bnn2(xiix)2ei2
i第二个等式成立是因为
ˆe(abX)aeeyiiiii1i1ibeiXi0
i1n我们将其写作
总平方和=回归平方和+残差平方和
或
SST=SSR+SSE.
我们利用下式得到一个关于回归直线对数据拟合程度的度量
决定系数R2为了方便计算与分析,约定
SSR SSTSxx(xix)2,Syy(xix)2,和 SxySxSxx, SySyy,
(xiix)(yiy)
x和y间的样本相关系数是rxySxy/(SxSy)。利用bSxy/Sxx我们得到
rxyb/(Sy/Sx),这表明回归的斜率和x、y间的相关系数具有相同的符号,而且
SSRb2Sxx2 . RrxySSTSyy2这进一步证明了我们利用R2作为回归模型拟合优劣指标的正确性。 3 方差分析表
进一步研究回归平方和SSR与残差平方和SSE,我们可以得到下面三个结论: a)在β=0的假设条件下,回归平方和b)残差平方和
SSR2服从自由度为1的卡方分布x2(1)(为什么?);
SSE2服从自由度为n-2的卡方分布x2(n-2);
c)在β=0的假设条件下,
SSR/1服从F(1,n-2)分布。现在我们来证明这三
SSE/(n2)个结论。
证明: a)
bSxySxx(xiix)yiSxxciyii,其中
cixixSxx,易知
ci2i1,令C(c1,c2cn),则bCY,b2YCCY, SxxSSRb2(xix)2Sxxb2YSxxCCY。
i可以验证SxxCC是幂等矩阵。
2SxxCCSxxCCSxxC(CC)CSxxCC
r(SxxCC)tr(SxxCC)Sxxci21
i在β=0的假设条件下,
SSR2才服从自由度为1的卡方分布x2(1)(为什么?)
b)因为SSTYM0Y及SSTSSRSSE 所以SSEY(M0SxxCC)Y 易验证M0SxxCC也是幂等矩阵
(M0SxxCC)2M0SxxCCM0SxxM0CCSxxCC
M0SxxCC11SxxCCiiSxxiiCCM0SxxCC nn最后一个等式成立是因为CiiCcii0。
所以r(M0SxxCC)tr(M0SxxCC)n1Sxx1n2,从而SxxSSE2~x2(n2)。此结论成立不需要β=0的假设条件下,为什么?
c)因为SxxCC(M0SxxCC)SxxCC(I1iiSxxCC) nSxxCC1SxxCCiiSxxCC0 nSSR/1服
SSE/(n2)所以SSR与SSE是相互的统计量。从而,在β=0的假设条件下,
从F(1,n-2)分布,所以,可以用来作模型的整体检验的统计量。
概括这些计算的一个方便的途径是方差分析表,可总结在方差分析表1中。
表1 方差分析表
变差来源 回归 残差
变差 SSR=b2Sxx
自由度 1 n-2
均方
SSTiei2
SST=Syy
SSR 1SSE n2Syyn1
总 n-1
F[1,n2]2)回归量X是随机变量 我们要利用方差分解公式
SSR/1
SSE/(n2)Var(Y)Var(E(Y|X))E(Varx(Y|X))
Var(X)E[E(YE(Y|X))|X] =Var(X)E[E(YE(Y|X))|X] 我们将它应用到子样空间里来,即
2221
n(yiy)2b2i_112(xx)ei2 inini所以,两边去掉1/n后得到:
2222b(xx)e(yy)iii
_iii我们得到了和把X当成非随机变量时同样的结果,因此,方差分析表也是一样的。 考虑消费函数的例子,这里C是消费而X是收入,我们得到
C793.43,X879.24,
SXX67,192.44,
SCC,972.12,SXC65,799.34.
总平方和的各个部分为
总平方和=,972.12 回归平方和=,435.13 残差平方和=537.00
R2,435.130.99173
,972.12显然,此回归提供了一个很好的拟合。 对消费和收入数据,方差分析表如下所示
例1数据的方差分析表
变差来源 回归 残差 总
变差 ,435.15 537.00 ,972.13
自由度 1 8 9
均方 ,435.13 67.124 7,219.12
F[1,8],435.13959.94
67.124另一个计算和通常R2相类似公式是:
iei2 R1Syy2ˆ来计算。 任何一个模型的残差都可用yiy三、最小二乘法估计量的统计特征
我们利用了最小二乘法,从纯粹的代数方法,求得所拟合的最小二乘系数a和b,从统计意义上来说,这个结果可以看作是对参数和β的一个估计(因为还存在着利用其他估计方法得到的估计)。我们现在对a、b的无偏性,有效性和精确度等统计特性作分析。
我们所考虑的计量模型是:
yixi
β的最小二乘估计是
b SxySxxi(xiix)yiSxx
cyii (1)
其中权数, ci仅仅是x1,…,xn的一个函数。
1、b是β的无偏估计
xix (2) Sxx将yixii代入(1),我们得到
bi(xix)(xii)
Sxx i(xix)Sxxii(xix)xiSxxi(xix)i
Sxxcii (3)
所以
E[b]Ecii (4)
i这是因为E[i]0。不论ε的分布如何,在我们其他假定下,b是β的一个无偏估计量,利用(3)得到b的样本方差
Var[b]Var[b]Varcii
i线性回归模型的假定4暗示这个和的方差中的协方差项是零,所以有
Var[b]Var[cii]c22iii2Sxx
特别要注意b的方差中的分母。x的变差越大(也就是x的采样范围越广),则这个方差越小。
2、a是α的无偏估计
对于最小二乘截距a,我们有:
aybx 1yibx ni 利用(3)式并加以整理,我们有
1(xii)bx niadii
i其中
1dixci
n由于求和中每一项的期望都为0,所以a也是α的估计量无偏估计量。a的样本方差就是
idii的方差,根据性有
x212221Var[a]dxci
innSxx22i2(通过对括号中的项进行平方并利用ici0的结果,可以得到上式中后一结果)。
3、a、b估计量的协方差矩阵 两个估计的协方差是
Cov[a,b]E[(a)(b)]Ediicii
iix2 cidi
Sixx2a和b两者都有iwiyi的形式,因此它们都是线性估计量,前边给出了它们的样本均值和方差并证实了它们是无偏的。正如已指出的,还存在利用数据估计和β的其他方法。然而,从线性无偏估计量的角度,没有任何估计量比最小二乘估计量具有更小的样本方差,这就是高斯—马尔科夫定理。
****当把正态分布干扰项的假定加入上面的过程时,我们得到估计量的分布的一个完备的结果。由于a和b两者都是正态分布变量的线性函数,因而它们也都是正态分布的。其均值和方差已导出,概括起来,在正态性假设下,有
2a21/nx/Sxxb~N,x/Sxxx/Sxx
1/Sxx
4、b是β的最小线性无偏估计。
思考:证明b=iciyi是线性无偏估计量中,方差最小的一个估计量。 [证明] 令另一个估计量是
bqiyiqiqixiqii
iiii在等式两边取期望,我们可以看到,若使b是无偏的,必须有iqi0及iqixi1。这样,biqii。b的方差是
Var[b]2qi2
i令iqici,则qicii且
Var[b]2(cii)2
i2ci2i22cii
iii利用iqi0和iqixi1,易得到icii0,这就是在b的方差中只留下两个平方项,这意味着Var[b]一定大于Var[b]。
推导
ciii0
ic(qiiiici)ciciqici2
iixqqxiiiiiSxx1110 SxxSxxSxx四、最小二乘估计量的统计推断
在前面的内容里,我们在假定干扰项是正态分布和样本X1,…Xn是非随机的条件下,给出了最小二乘估计量的确切的样本分布。但通常的参数估计过程包括构造置信区间和对α和β值的假设检验。为了做到这一点,我们需要参数的真正样本方差的估计,这将需要对未知参数的一个估计,并构造假设检验方法。
1、的无偏估计量的推导
由于是i的期望值,而ei是i的一个估计,
2222ˆ21ei2 ni似乎是一个自然的估计量,通过写出eiyiabxi,并把yixii,
yx和aybx代入,我们得到
eii(xix)(b)
i(xix)cjj (1) j我们对某一个别干扰项i的估计受两种因素的扭曲:所有干扰项的样本平均和我们可以归于β并非完美估计这一事实所造成的影响。回忆所有干扰项是的,所以
E(ij)0若ij。现在我们平方的两边并取期望值,可得到
222E[e](xix)cjn nj2i222222 2(xix)ci(xix)cjnj22在对这些项求和时,我们利用ici0,i(xix)ci1和ici1/Sxx。整理后,我们有
Eei2(n2)2 i这表明的一个无偏估计量是
2
iei2s
n22这样,我们可以得到b的抽样方差的一个估计为
s2 . Est.Var[b]Sxx以后,我们将用记号Est.Var[]表示一个估计量的抽样方差的一个样本估计。
t分布统计量的构造
zSSE2b/Sxx2 (1)
的分布是标准正态。由
2服从x(n2)
(n2)s2并且和b是的。
2~x2(n2) (2)
根据(1)和(2),我们得到:
tbs/Sxx2
是一个标准正态变量和一个除以其自由度的卡方量的平方根之比,它服从自由度为(n-2)的t分布。这样,记sbSSxxS,则比率 Sxb~t[n2] (3) sb
可以形成统计推断的基础。 2、抽样分布
β的置信区间将以(3)为基础。特别的,我们可以有
P(bt/2sb≤≤bt/2sb)1,
其中1是要求的置信水平,t/2是来自于自由度为(n-2)的t分布的适当的临界值。利用a及其估计方差,可以同样地构造α的置信区间。
3、β的假设检验
我们也可以构造干扰项方差的置信区间,利用(2)和前边的同样推理,我们得到的95%置信区间是
22
(n2)s220.975至(n2)s220.025
一个相关的过程是检验参数是否取一给定值,为了检验假设
H0:0对H1:0,
最简单的过程是利用我们的置信区间,置信区间给出了在给定样本数据情况下,β的一个似乎可能的值的集合,如果这个集合不包含β0,则原假设应该被拒绝。在原假设下,比率
b0 tsb服从自由度为(n-2)的t分布,其均值为0。这个比率在任何尾部的极端值都将使假设值得怀疑。这样,一般地,若
b0sbt/2,
我们将拒绝H0。这里,t/2是来自于自由度为(n-2)的t分布的100(1-λ/2)%临界值。
例子
在前边的回归中,我们得到
a=-67.5806 和 b=0.9793. 为了计算标准误差,我们需要
s2537.0067.125 8Sxx67,192.45
和
x679.24
sa27.91 sb27.91
对一个自由度为n-2=8的分布,95%临界值是2.306。所以,α和β的95%置信区间分别是
-67.5806+2.306(27.91) 或 -131.94 至 -3.22 和
0.9793+2.306(0.03161) 或 -0.901 至 -1.0522
我们得到基于自由度为(10—2)=8的x2分布的σ2的置信区间, 相应的临界值是2.18
和15.5,所以置信区间是
(102)或
67.12567.125<σ2<(102)
17.542.1830.62<σ2<246.33
这可能显得太宽了。然而,我们通常对ε的标准差比对其方差更感兴趣。基于同样这些结果的σ的95%置信区间是5.至15.69。
五、预测
除了参数的估计外,回归的最常见的作用是进行预测。假定x0是回归量的已知值,且我们对预测与x0相应的y的取值y0感兴趣。我们将试图对真值y0进行预测: 1.个体预测(Individual Prediction)
y0x00
002ˆ0abx0 ,预测值将是y(~N(0,),且 Ei0, i=1,…,n)
ˆ 预测误差是 eyy xabx
000000(a)(b)x00
在两边取期望有E[e0]=0。所以,在预测误差均值为0这个意义上最小二乘预测是无偏的。预测误差的方差是
Var[e0]Var[a](x0)2Var[b]2x0Cov[a,b]Var[0]
1x2(x0)22xx01
SxxSxxnSxx21(x0x)21
nSxx2所以
y0abX0(11(XX))nSxx02~N(0,1)
又因为
(n2)s22~x2(n2)
所以
y0abX0s(11(XX))nSxx02~t(n2)分布。
我们能够为y0构造一个预测区间,它具有和个别参数置信区间相同的形式,特别地,我们的预测区间将是
(abx)t/22.均值预测(Mean Prediction)
01(x0x)2s1 (3)
Sxxn20均值预测是预测值是yx 而不考虑随机干扰项。
00ˆ 预测误差是 eyy xabx
00000(a)(b)x0
在两边取期望有E[e0]=0。所以,在预测误差均值为0这个意义上最小二乘预测是无偏的。预测误差的方差是
Var[e0]Var[a](x0)2Var[b]2x0Cov[a,b]
1x2(x0)22xx0
nSSSxxxxxx21(x0x)2
Sxxn2所以
y0abX0(1n(XX)Sxx02~N(0,1)
又因为
(n2)s22~x2(n2)
所以
y0abX01(XX)s()nSxx02~t(n2)分布。
我们能够为y0构造一个预测区间,它具有和个别参数置信区间相同的形式,特别地,我们的预测区间将是
(abx)t/2
例子
01(x0x)2s (4)
nSxx2利用例1中的消费数据,如果1980年的可支配收入预测是1030美元(十亿),为了计算一个预测区间,我们需要
a=-67.5806 , b=0.9793 , s2=67.125 ,
x879.24,
Sxx=67,192.44 n=10 .
t分布的临界值是2.306,将这些代入3得到一个预测区间是:
-67.5806+0.9793(1030)+2.306(9.8256) 即
941.1+22.658.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务