您的当前位置：首页回归分析总结

回归分析总结

来源：微智科技网

回归分析总结

第十二章多元回归分析

在许多实际问题中，影响因变量的因素有一个时，我们用一元回归分析解决问题，但是影响因变量的因素往往有多个，此时问题就上升到了一个因变量同多个自变量的多元回归问题。当因变量与自变量之间为线性关系时，我们称之为多元线性回归。

多元性性回归分析的原理同一元线性回归基本相同，但计算上要复杂得多。主要知识点：

建立的回归模型中回归系数和误差项分别代表的含义：

回归系数(i0,1,2k)表示当其他 k1个自变量不变时，第i个自变量

i一个单位因变量y的平均变动量；

误差项表示不能由各个自变量与y之间的线性关系所解释的变异性。利用软件用最小二乘法对参数进行估计的方法及步骤：

在Excel中使用“工具”“数据分析” “回归” 输入数据区域“确定”，即可得到各参数的估计值，此时便可以写出回归方程。拟合优度的检验方法：

方法一：多重判定系数

SSRSSE22 R10R1

SSTSST

R表示在因变量y的总变差中被估计的回归方程所解释的比例；

22 故R越大越好。方法二：估计标准误差

Seˆ)(yyii2nk1e

S表示根据所建立的回归方程，用自变量来预测因变量时，

平均预测误差的大小；

故Se越小越好，越小说明波动性越小。

用软件进行线性关系检验的方法：

在Excel中，在“工具”“数据分析” “回归” 方差分析一栏中有“SignificanceF”值（即P值），当p时，拒绝原假设；当p时，接受原假设。

回归系数的检验：

检验单个自变量对因变量的影响是否显著

，检验步骤同线性关

系的检验，检验过程中可能会因为“多重共线性”问题导致某些自变量无法通过检验。检验步骤：第1步：提出假设。对于任意参数(i1,2k)有

H:0i0 0

H:1i 第2步：计算检验的统计量t。

tiˆiSˆ~t(nk1)

i 第3步：做出统计决策。

给定显著性水平，根据自由度=n-k-1查t分布表，

得t2的值。若tt2，则拒绝原假设；若tt2，则不拒绝原假设。

多重共线性：

产生原因：自变量之间的相关性；检验方法：

方法一：检验模型中各对自变量之间是否显著相关，若显著相

关则暗示存在多重共线性；

方法二：当模型的线性关系检验（F检验）显著时，几乎所有回归系数

的t检验却不显著；

方法三：当回归系数的正负号与预期的相反时也预示着多重共

线性的存在；

问题的处理：

方法一：将一个或多个相关的自变量从模型中剔除，使保留的

i

自变量尽可能不相关；

方法二：如果要在模型中保留所有的自变量，那就应该： ⅰ 避免根据t统计量对单个参数进行检验。

ⅱ 对因变量y值得推断（估计或预测）限定在自变量样

本值的范围内。

利用回归方程进行预测：

利用给定的k个自变量，求出因变量y的平均值的预测区间和个别值的预测区间。变量选择：

原理：对统计量进行显著性检验，将一个或一个以上的自变量引入模型，如果增加一个自变量会使得残差平方和（SSE）明显减少，则将该自变量留在模型中，否则剔除。

主要方法：1）向前选择2）向后剔除3）逐步回归

本章知识结构如下： 1、建立回归模型 yxxx 回归方程 y01122kk

多元回归分01x12x2kxk

2、利用最小二乘法对参数进行估计

参数包括，，

012k3、写出回归方程y0xx1122kxk

4、方程拟合优度的检验

5、线性关系检验

方法一：多重判定系数 R 方法二：估计标准误差 Se

26、回归系数的检验

1) 提出假设

检验单个自变量对因变量的影响是否显著

，检验步骤同

线性关系的检验，检验过程中可能会因为“多重共线性”问题导致某些自变量无法3) 作出决策 F,F通过检验。

2) 计算统计量FSSRK~F(k,nk1)

SSE(nk1),P,

7、利用回归方程进行预测

利用给定的k个自变量，求出因变量y的平均值的预测区间和个别值

a) 向前选择 b) 向后剔除 c) 逐步回归

a) 计算各对自变量之间的相关系数，并对各相关系数进行显著性检验；

b) 当模型的线性关系进行F检验显著时，几乎所有回归系数的t检验却不显著；

ic) 回归系数与预期的的相反；

本章例题

对于绝大多数的钢种而言，磷是有害的元素之一，要求含磷越低越好，经过试验技术人员发现，高磷钢的效率与高磷钢的出钢量及高磷钢中的FeO含量有一定关系, 所测数据如下表：试验序号 1 2 3 4 5 6 7 8 9 10 11 12 13 出钢量(x1) 87.9 101.4 109.8 93.0 88.0 115.3 56.9 103.4 101.0 80.3 96.5 110.6 102.9 含量(x2) 13.2 13.5 20.0 14.2 16.4 14.2 14.9 13.0 14.9 12.9 14.6 15.3 18.2 效率(y) 82.0 84.0 80.0 88.6 81.5 83.5 73.0 88.0 91.4 81.0 78.0 86.5 83.4 设高磷钢的效率为y、高磷钢的出钢量为x1、高磷钢中的FeO含量为x2 用Excel进行回归，回答下面的问题：（1）写出估计的回归方程。

（2）在高磷钢的效率的总变差中，被估计的回归方程所解释的比例是多少？（3）检验回归方程的线性关系是否显著（0.05）。（4）检验各回归系数是否显著（0.05）。

（5）检验所建立的回归方程是否存在多重共线性。解：用Excel进行回归分析输出如下所示：回归统计 Multiple R 0.688844 R Square 0.474506 Adjusted R Square 0.369407 标准误差 3.8481 观测值 13

方差分析

回归分析残差总计

Lower Upper 下限上限 95% 95% 95.0% 95.0%

Intercept 75.14378 9.487736 1.29E-05 54.00379 96.28377 54.00379 96.28377 出钢量 0.215485 0.074578 0.016124 0.049314 0.381655 0.049314 0.381655 FeO含量 -0.84321 0.548418 0.155181 -2.06516 0.378745 -2.06516 0.378745

（1）由此可得到高磷钢的效率与高磷钢的出钢量及高磷钢中的FeO含量的回

Coefficients 标准误差 P-value

归方程：y75.143780.215485x10.84321x2

其中回归系数0.215485表示，在FeO含量不变时，高磷钢的效率每增

1df 2 10 12

Significance

133.5981 66.79907 4.514849 0.040072 147.9542 14.79542 281.5523

加一个单位，高磷钢的出钢量将增加0.215485个单位。

20.84321表示，在高磷钢的出钢量不变时，高磷钢的效

率每增加一个单位，FeO含量要降低0.84321个单位。

（2）在回归统计一栏中有R=0.474506，所以在高磷钢的效率的总变差中，被估计的回归方程所解释的比例是47.75%。

（3）在方差分析一栏中有Significance F（即P值）=0.040072，在0.05的显著性水平下，有P<,故拒绝原假设，说明高磷钢的效率与高磷钢的出钢量和高磷钢中的FeO含量之间存在显著性的线性关系。

（4）由回归分析输出的结果中的P-value（即P值）一栏可以看出，只有出钢量对应的回归系数通过了检验。

说明在影响高磷钢的效率的两个变量中，只有出钢量的影响是显著的，而高磷钢中的FeO含量则对高磷钢的效率没有显著性影响。（5）

出钢量 FeO含量

出钢量 1

FeO含量 0.256003 1

出钢量、FeO含量之间的相关矩阵

各相关系数检验的统计量如下表所示：

出钢量 FeO含量

出钢量 1

FeO含量 0,878336 1

各相关系数检验的统计量查表得t2(132)2.2010，由于统计量小于t2(132)2.2010，所以接受

原假设，说明两个自变量之间没有显著的相关关系。故不存在多重共线性。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文