2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
《数理统计》
案例分析大作业(范例)
学号 姓名 专业 成绩
国家财政收入的多元线性回归模型
摘要:用Excel求解Y与X之间的初步回归模型,得到初步回归直线方程
Y284870.00909x10.46208x20.03187x30.286066x40.22198x50.00292x60.239963x7然后对此方程进行线性显著性检验和回归系数显著性检验。由R20.999知Y与
X之间存在显著的线性,然而只有自变量x2,x7满足通过t值检验,从而回归系数
x1,x3,x4,x5,x6与Y之间没有显著的线性关系,说明自变量之间存在多重共线性关
系。采用MATLAB逐步回归方法对数据进行处理,根据程序自动提示得到最优回归方程y733410.660658x50.241802x7,此时R20.997,F3008。最后采用2010年的数据对此方程进行验证,得到结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。
一、问题提出
近年来,随着国家经济水平的飞速发展,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。有了强有力的财政保证才能够对全局进行把握和,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。
国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。
1
2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,社会商品零售总额,人口总数等。
二、数据描述
从《中国统计年鉴2010》查选数据,整理如表2-1所示:
表2-1.1990-2009年财政收入及其影响因素统计表
工业 (亿元)
农业 (亿元)
受灾面积(千公顷)
建筑业 (亿元)
人口 (万人)
社会商品零售总额(亿元)
国民生产总值(亿元)
财政收入 (亿元)
1990
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 186.22 22088.68 27724.21 39693 51353.03 54946.86 62740.16 68352.68 67737.14 72707.04 85673.66 95448.98 110776.48 142271.22 201722.19 251619.5 316588.96 405177.13 130260.2 135239.9 7662.1 8157 9084.7 10995.5 15750.5 20340.9 22353.7 23788.4 24541.9 24519.1 24915.8 26179.6 27390.8 29691.8 36239 39450.9 40810.8 482.9 33702.0 35226.0 38474 55472 51333 48829 55043 45821 469 53429 50145 49981 54688 52215 47119.1 54506.3 37106.256 38818.225 41091.41 35972.23 56234.26 50223.51 1345 15.3 2174.4 3253.5 4653.3 5793.8 8282.2 9126.5 10062 11152.9 12497.6 15361.5 18527.1 23083.8 27745.3 34552.0 41557.1 51043.7 18743.2 22398.8 114333 115823 117171 118517 119850 121121 1223 123626 124761 125786 126743 127627 128453 129227 129988 130756 131448 132129 132802 133474 8300.1 9415.6 10993.7 14270.4 18622.9 23613.8 28360.2 31252.9 33378.1 357.9 39105.7 43055.4 48135.9 52516.3 59501 67176.6 710 210 116032 144 18718.3 21826.2 26937.3 35260.0 48108.5 59810.5 70142.5 78060.8 83024.3 88479.2 98000.5 108068.2 119095.7 135174.0 159586.7 185808.6 217522.7 267763.7 316228.8 3434.7 2937.1 3149.48 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 103. 21715.25 26396.47 319.29 38760.2 51321.78 61330.35 68518.30
变量的假设如下表所示:
表2-2.自变量假设表
项目 工业 (亿元) 农业 (亿元) 受灾面积(千公顷) 建筑业 (亿元) 人口 (万人) 社会商品零售总额(亿元) 国民生产总值(亿元) 财政收入 (亿元) 变量 x1 x2 x3 x4 x5 x6 x7 y 三、模型建立
(1)回归模型的建立:
多元回归模型
Yi01x1i2x2i3x3i4x4i5x5i6x6i7x7ii
2
2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
iN0,2
写成矩阵形式即为:Y=Xβ+ε,其中
1x111x12X......1x1nx21x22...x2nx31x32...x3nx41x42...x4nx51x52...x5n012x61x71y11yx62x7223βYε2 4............x6nx7nn8ynn1nn1567711当残差εε最小时,回归系数的解为βXTXXTY
T(2)对回归分析进行参数检验
①线性回归模型的显著性检验
提出假设H0:01...70 采用R检验法,R2SR为样本的多元相关系数,R越接近1表示Y与X之间2ST的线性相关越密切;R越接近0表示Y与X之间的线性相关越不显著。对给定的显著水平,当R的样本值rrnk1时(其中n为年份总数20,k为x前系数个数7),认为Y与X之间的线性相关显著;否则认为Y与X之间的线性相关不显著。
②回归系数的显著性检验
提出假设H0i:0i0i1,2,...,7,其拒绝域为ici
设CXTXcij88,有 i1Ni,2ciii1,2,...,7有iiciiN0,1而且S与i,当H0i成立时有Fi2Enk1iciiS2E2 F1,nk1i1,2,...,7。
对于给定显著性水平,拒绝与的临界值为ciSE
ciiF11,nk1。如果
nk13
2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
结果是拒绝H0i,即为i0,表示i与Y之间存在显著的线性关系;如果接受
H0i,即为i0,则应将xi从回归方程y01x1...7x7中剔除,建立新
的回归方程y01x1...i1xi1i1xi1...7x7,重新用最小二乘法估计回归参数系数。
一般而言jj,但有如下关系:jj*******cijciij,ji,j0,1,...,7。
剔除不显著的自变量的时候,考虑到自变量之间的交互作用对Y的影响,每次只剔除一个自变量,如果有几个自变量检验都不显著,则先剔除Fi的样本值fi中的最小的那个自变量。当剔除xi,重新建立新的回归方程后,还必须对剩下的变量再逐一检验它们的显著性,直至保留下的自变量对Y都有显著的作用为止。
(4)MATLAB对模型的逐步回归分析
采用MATLAB调用stepwise命令,用逐步回归分析工具箱,根据程序来选择最优变量组合,获得最优回归直线方程。
四、计算方法设计和计算机实现
采用Excel初步计算回归直线参数,检验线性回归模型的显著性,再检验回归系数的显著性。如果存在部分系数没有通过显著性检验,则采用逐步回归方法对Y与X进行处理。逐步回归可以借助MATLAB的命令工具箱stepwise进行。
五、主要的结论
(1)采用Excel计算回归直线方程结果
45000040000035000030000025000020000015000010000050000001000020000300004000050000600007000080000x1x2x3x4x5x6x7 4
2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
图5.1Y与x1,x2,...,x7之间变化关系
用Excel求解Y与x1,x2,...,x7之间的回归方程,其结果如下所示:
表5.1回归统计
Multiple R 0.999698 R Square 0.999396 Adjusted R Square 0.999044 标准误差 617.9686 观测值 20
表5.2方差分析
DF SS MS F Significance F 2.41E-18 回归分析 7 7.59E+09 残差 12 4582622 总计 19 7.59E+09
1.08E+09 2837.638 381885.2
表5.3方差分析
Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%
-22975.3 -0.05601 -0.68093 -0.11202 -0.07665 -0.69243 -0.0233
79949.27 0.037839 -0.24322 0.048281 0.8785 0.248476 0.0174 0.247742
Intercept 28487 23619.41 1.206084 0.251027 -22975.3 79949.27 X Variable 1 -0.00909 0.021538 -0.42192 0.68054 -0.05601 0.037839 X Variable 2 -0.46208 0.100447 -4.60019 0.000611 -0.68093 -0.24322 X Variable 3 -0.03187 0.036786 -0.86632 0.403303 -0.11202 0.048281 X Variable 4 0.286066 0.1676 1.718365 0.111398 -0.07665 0.8785 X Variable 5 -0.22198 0.215922 -1.02805 0.324205 -0.69243 0.248476 X Variable 6 -0.00292 0.009354 -0.31186 0.760501 -0.0233 0.0174
X Variable 7 0.239963 0.00357 67.21666 7.8E-17 0.232185 0.247742 0.232185
从而回归直线方程为:
Y284870.00909x10.46208x20.03187x30.286066x40.22198x50.00292x60.239963x7其中回归方程的相关系数R2较大,且F显著性水平接近0,故认为财政收入与上述变量之间存在显著的线性关系。但是只有变量x2,x7满足通过t值检验,从而可以认为自变量之间存在较强的多重共线性。
(2)采用MATLAB计算回归直线方程结果
下面采用MATLAB的stepwise工具箱进行多元线性分析:
5
2015级研究生《数理统计》课外大作业 国家财政收入的多元线性回归模型
图5.2stepwise计算逐步回归
根据软件自带的提示,在RMSE最小的时候R2最大,同时p满足要求。此时
R20.997,F3008。故选择变量x5,x7,最优回归直线方程为:
y733410.660658x50.241802x7
六、结果分析与检验
对得到的最优回归模型做检验,置信度为95%,由上述表格知2010年的x5人口数为133474(亿元),x7国内生产总值为3434.7(亿元),Y财政收入为68518.3(亿元),将自变量带入回归方程
y0733410.6606581334740.2418023434.768211(亿元) ˆo(xo),yˆ(xo)), 预测区间为(y其中(xo)t0.975(18)RMSE2.1111212365(亿元)
代入数值得到置信度为95%的预测区间为(65846,70576),与2010年财政收入68518.30(亿元)比较接近。综合来看,此数据模型基本达到了预期的目的。
6