关于司机年龄与发生车祸次数关系的分析 一、 引 言
客观现象总是普遍联系与相互依存的。随着社会的进步,经济的发展,交通事故也是频频增多,而且有意思的是:发生车祸的驾驶员中年轻人尤其是21岁以下者所占比例有上升的趋势,那么车祸次数与年龄是否必然相关呢?本文旨在应用相关与回归的分析方法来对这一问题进行研究,在计算各种指标时构造了回归模型等来进行判定与分析。 全文主要内容安排如下:首先提出研究方法与模型检验方法,接着在第三部分是对数据的描述和简单的分析,最后对模型进行检验,得出结论。
二、 理 论 研 究
各种客观变量之间的相互关系可分为两类:一类是确定性的函数关系,另一类是不确定性的统计关系。研究现象之间的统计关系时,依研究者的理论知识和实践经验,可对客观现象之间是否存在相互关系以及有何种相关关系做出判断,在定性分析基础上,可以利用求相关系数的方式来判断两个或两个以上变量之间相关关系的方向、形态以及相关关系的密切程度。一般求两个变量相关系数r 的方法是;
nXYXYSXYr22 SXSY22nXXnYY
1
SXY是变量x, y的样本协方差,SX、SY分别为变量x, y
的样本标准差。用相关系数大小来判断相关系数的密切程度: r0.4 表示低度线性相关, 0.4r0.7表示显著性相关, 0.7r为高度线性相关。在确定现象间具有相关关系之后,可对其数量变化的规律性进行测定,确立一个回归模型,在实际问题中,最简单的模型是由两个变量组成的一元线性回归模型。此时可设模型的回归方程为
Y=a+bX+u (x为自变量,y 为因变量,u随机扰动项)
nXYXY根据最小二乘法知:bnX2X2
a=Y–bX
为了判断两变量之间是否真正存在显著的线性相关关系,可以求可决系数进行拟合程度评价,也可通过相关系数的显著性检验或回归系数的假设检验来对所建立的回归方程式的有效性进行分析判断。
三、实 证 研 究 与 分 析
本文数据来源于美国交通部,共采集了每千个驾驶执照发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例的数据,样本由42个城市组成,在一年间采集的数据如下:
2
21岁以每千个21岁以每千个21岁以每千个下所占驾驶执下所占驾驶执下所占驾驶执比例(%) 照中车比例(%) 照中车比例(%) 照中车祸次数 13 12 8 12 11 17 18 8 13 8 9 16 12 9 2.962 0.708 0.885 1.652 2.091 2.627 3.830 0.368 1.142 0.5 1.082 2.801 1.405 1.433 10 9 11 12 14 14 11 17 8 16 15 9 8 14 祸次数 0.039 0.338 1.849 2.246 2.885 2.352 1.294 4.100 2.190 3.623 2.623 0.835 0.820 2.0 8 15 10 10 14 18 10 14 16 12 15 13 9 17 祸次数 1.267 3.224 1.014 0.493 1.443 3.614 1.926 1.3 2.943 1.913 2.814 2.634 0.926 3.256 从上表可知每千个驾驶执照中,平均发生车祸次数为1.92次,即一年内每1000个驾驶员中就约有两次死亡事故发生。 是什么原因导致如此之高的车祸发生率呢?与驾驶员中年轻人变多是否有关呢?下面就采集的数据从以下两个方面进
3
行了探讨。
(1)相关分析:根据数据作出散点图如下:
每千个驾驶执照中发生车祸次数54321001021岁以下所占比例
从相关图中,我们可以看到,21岁以下者所占比例与车祸次数之间的关系较为密切,且有线性正相关的趋势,进一步计算二者的相关系数,我们可作变量假设:x 为21岁以下者所占比例,y 为每个驾驶执照中发生车祸的次数,则相关系
车祸次数每千个驾驶执照中发生车祸次数20SXYnxyxyr0.8352222SxSynxxnyy数为:
相关系数r 为0.835 > 0.7,说明车祸发生次数与21岁以下年
4
轻人所占比例有高度的线性相关关系 (2)回归分析
知道了车祸次数与年轻人比例的高度线性相关关系后,我们现在关心的是二者间的这种关系能否用一比较好的函数进行描述呢?因此,对其进行回归分析也就尤显必要,在分析时,我们假设
① 在简单的线性回归模型里,解释变量无测量误差; ②模型满足古典假定。
对其运用OLS对其进行回归得:(表一)
Dependent Variable: Y Method: Least Squares
Date: 06/09/04 Time: 12:31 Sample: 1 42
Included observations: 42 Variable C X R-squared Adjusted R-squared
S.E. of regression Sum squared resid Log likelihood
Durbin-Watson stat Coefficient Std. Error -1.591633 0.372128 0.286745 0.029426 t-Statistic -4.277110 9.7448 Prob. 0.0001 0.0000 0.703612 Mean dependent 1.924405
var
0.696202 S.D. dependent var 1.070568 0.590074 Akaike info criterion 13.92751 Schwarz criterion -36.41554 F-statistic
1.724953 Prob(F-statistic)
1.829312 1.912058 94.95816 0.000000
根据上述变量假设,可作一元线性直线图如下
5
年青人所占比例与车祸关系图车祸次数200510年青人所占比例每千个驾驶执照中发生车祸次数线性 (每千个驾驶执照中发生车祸次数)1520y = 0.2867x - 1.5916
可知回归方程为:Y=0.2867X—1.5916+u,系数b=0.2867表示在其他条件不变时,21岁以下者所占比例每增加一个百分点,一年内每一个驾驶执照发生车祸次数会增加0.2867次,这显然是相当严重的了。 四、 模 型 的 检 验
上述构建的模型是否能代表普遍现象呢?还须对回归模型进行一级检验。 (1)拟合优度评价:
从意义上讲,可决系数与相关系数有很明显的差异,但从数值上,我们知道可决系数即为相关系数的平方
2r故可决系数为: =0.697225
6
这表明在线性回归模型中,每千个驾照发生车祸次数 y 的总变差中,由解释变量21岁以下者占比例 x 的解释部分占69.7225%,模型的拟合优度较高。 (2)、显著性检验:
首先提出原假设H0:b =0(总体相关系数为零,表示总体的
两个变量线性关系不显著),备择假设H1:0
当零假设H0:b =0成立时,统计量t是服从自由度n-2的t分布,即:
tr
实际计算
n21r2t(n2) (显著性水平为=0.05)
425t0.835对给定的,查表得临界值:
10.835
29.477
tn2t0.025402.02112t9.477t0.025402.0211所以拒绝H0,表示总体变量间线性相关性显著,即说明车祸次数与年青人比例之间有显著的线性相关关系,所拟合的线性回归方程具有95%的置信概率。
(4)、异方差检验
7
运用Goldfeld-Quandt方法检验随机扰动项是否存在异方差,具体步骤如下:
①将观察值按解释变量大小顺序排列。
②将排列在中间的约1/4的观察值删除掉,除去的观察值个数记为C=10,则余下的观察值分为两个部分,每个部分的观察值个数为(N-C)/2。
③提出检验假设,H0:ui为同方差性,H1:ui为异方差性。 ④分别对两部分观察值求回归模型,并计算两部分的剩余平方和
22ee=4.813212与12=3.727772。他们的自由度均为(n-c)
/2-k=14,k=2为估计参数的个数,于是构造
2e2F2e1nck2nck22e22e13.7277720.77454.813212
FF0.0514,14=2.5,⑤判断。在给定的显著性水平=0.05下,
则接受H0,即误差项不存在异方差。
(5)、自相关检验
对该模型进行最小二乘估计得到DW值约为1.7260,给定显著性
解释变量的个数)(1,水平=0.05,查Durbin-Watson表,n=42, k得下限临界值
dL=1.46,上限临界值
du=1.55,因为
du=1.55五、 结 论8
通过上面的研究可知,车祸的次数与司机年龄有着密切的线性正相关关系。车祸次数的增加有69.7225%可由年轻人比例的增加来解释,那么另外30%由什么解释呢?因素显然是多方面的,比如道路设施不完善,天气恶劣,酒后驾车,等等,涉及因素甚多,在此就不作详细的讨论了。由研究结论我们建议;(1)交管部门采取措施,改善路况,并硬性规定驾驶员的最低年龄(比如规定年龄下限为25岁),(2)、司机朋友们尤其是年轻司机要警钟长鸣,小心驾驶,严遵交通规则。
金融 2001级 40104014 高艳涛 40104062 刘琳 40104058 童玲 40104060 王贝妮 40104061 崔璀 40104076 洪叶 40104077 袁小卉
9