您好,欢迎来到微智科技网。
搜索
您的当前位置:首页多元统计分析及R语言建模考试试卷

多元统计分析及R语言建模考试试卷

来源:微智科技网
……………………………………………………………最新资料推荐…………………………………………………

多元统计分析及R语言建模考试试卷

课程名称:_____多元统计分析______________ 课程类别 必修[  ]选修[ ] 授课教师姓名:________王斌会______________ 考试方式 开卷[ ]闭卷[  ] 试卷类别(A、B) [ A ] 共8 页 教 师 填 考试时间:__年_____月______日 写 考 学院(校) 专业班(级) 生 填 姓名学号 写 题 号 得 分

一 二 三 四 五 六 七 八 九 十 总 分 得分 评阅人 一、简答题(共5小题,每小题6分,共30分)

1. 常用的多元统计分析方法有哪些?

(1)多元正态分布检验(2)多元方差-协方差分析(3)聚类分析(4)判别分析(5)主成分分析(6)因子分析(7)对应分析(8)典型相关性分析( 9)定性数据建模分析(10)路径分析(又称多重回归、联立方程) (11)结构方程模型 (12)联合分析 (13)多变量图表示法(14)标度法 2. 简单相关分析、复相关分析和典型相关分析有何不同?并举例说明之。

简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并

第 1 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

复相关分析;研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。 典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

3. 试说明主成分分析和因子分析不同点和相同之处。

主成分分析和因子分析的相同之处1.都可以降维、分析多个变量的基本结构2.因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应的因子分析,是因子分析的特列3.都是利用变量之间的相关性将它们进行分类4.主成分分析中,各个主成分之间互不相关;因子分析中,公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

4. 判别分析以及Fisher判别和Bayes判别的基本思想是什么?

第 2 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

判别分析:根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别;

根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等

Fisher判别法;通过将数据投影到某一方向上,使得投影之后类与类之间尽可能分开,然后再寻找合适的判别准则。

Bayes判别法:假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别。

5. 指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。 标准化方法

(1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的原随机向量,借助于一个正交变换,转化成其分量不相关的新随机向量,并以方差作为信息量的测度,对新随机向量进行降维处理。再通过构造适当的价值函数,进一步做系统转化。

(2)数据包络分析法。它是创建人以其名字命名的DEA模型——CR模型。DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序,而且还可进一步分析各决策单元非DE有效的原因及其改进方向,从而为决策者提供重要的管理决策信息。

(3)模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。

综合评价方法1、计分法 2、综合指数法 3、Topsis法4、秩和比(RSR)法 5、层次分析(AHP)法 6、模糊评价方法 7、多元统计分析方法 8、灰色系统评价方法

第 3 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

得分 评阅人 二、证明题(共1小题,共20分)

设y= a1x1+ a2x2 +…+apxpa x,其中a =(a1,a2,…,ap),x =(x1,x2,…,xp),求主成分就是寻找x的线性函数ax使相应的方差达到最大,即Var(a x) = a a 达到最大,且a a =1,此处为x的协方差阵。设

。试证明下面性质:

(1)y=Ux,UU=I,这里U为x的协方差阵的特征向量(单位化的)组成

的正交阵。

(2)y的各分量之间是互不相关的。

(3)y的p个分量是按方差大小、由大到小排列的。 (4)y的协方差阵为对角阵。 (5)iii,这里 = (ii)pp

i1i1pp的特征根为

(6)

证明(1)(2)(3):

设的特征向量为U=(u1,u2,…,up),则UU=I,即U为一正交阵,且

= UU= U diag(1,2,,p)U=iuiui

i1p因此a a=ia uiui a=i(a ui) (aui)=i(a ui)2

i1i1i1ppp于是a ai(a ui)2=1(aU) (a U)=1a UUa=1a a=1

i1p第 4 页 共 14 页

……………………………………………………………最新资料推

荐…………………………………………………

应取au1时,u1u1= u11u1=1

故y1=u x就是第一主成分,其方差最大, Var(y1) = Var(u1 x) =1 同理,Var(yi) = Var(ui x) =i

另外,Cov(yi, yj)= Cov(ui x, uj x)= uiuj= uijuj=j ui uj=0,i

因此,有上述可得变量x的主成分是以的特征向量为系数的线性组合,且主成分y之间互不相关,y的p个分量是按方差大小、由大到小排列的。性质(1)(2)(3)得证。

性质(4)可有(1)(2)(3)得到。 证明性质(5): 由U=(u1,u2,,up),则有

= UU

于是ii=tr()=tr(UU)= tr(UU)= tr()=i

i1i1pp证明性质(6):(6)

由前面的证明得知var(yi)i,var(xj)jj 令ej=(0,

,0,1,0,,0)为单位向量,则

xj=ejx,yi= ui x

所以,Cov(yi,xj)= Cov(ui x,ejx)= ejD(x) ui= ej ui=i ej ui=i uij

第 5 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

故a(yi,xj)Cov(yi,xj)var(yi)var(xj)uijijj

性质(6)得证 得分 评阅人 三、运算题(共3小题,共20分)

下面左表为五个观察值,两个变量的数据,右表为用欧氏距离计算的距离矩阵,

1 2 3 4 5

x1 5 7 3 6 6

x2 7

x21541 2 5 6

3456732345x16712

1. (10分)写出用R语言分析的命令 (1) 请将数据x1和x2写入R向量中:

x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2

(2) 写出绘制上面散点图的R命令:

x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2

第 6 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

plot(x1,x2)

(3) 写出绘制系统聚类图的R命令:

X=data.frame(x1,x2);X

D=dist(X,diag=TRUE,upper=TRUE);D hc=hclust(D,'complete');hc plot(hc)

2.(5分)

(1) 写出计算下面绝对距离阵的R命令:

x1=c(5,7,3,6,6) x2=c(7,1,2,5,6) X=data.frame(x1,x2);X

D=dist(X,diag=TRUE,upper=TRUE,p=1);D

12345 1 0 8 732 2 8 0 556 3 7 5 067 4 3 5 601 5 2 6 710

(2)试在图中标出这些距离

3.(5分)试用最长距离法对其进行聚类分析,画出聚类图,并按二类、三类

第 7 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

进行分类 第一步:计算距离阵

X=data.frame(x1,x2);X

D=dist(X,diag=TRUE,upper=TRUE);D

第二步:进行系统聚类(最长距离法)

hc=hclust(D,'complete');hc

第三步:画出聚类图 (1)按二类进行分类

plot(hc);rect.hclust(hc,2)

Cluster DendrogramHeight456223114Dhclust (*, \"complete\")53

(2)按三类进行分类

plot(hc);rect.hclust(hc,3)

第 8 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

Cluster DendrogramHeight456223114Dhclust (*, \"complete\")53

得分 评阅人 四、案例分析题(共2小题,共30分)

我们知道,财政收入与国民生产总值和税收等经济指标有密切的依存关系。今收集了我国改革开放以来财政收入(y:百亿元),国民生产总值 (x1:百亿元),税收(x2:百亿元),进出口贸易总额(x3:百亿元),经济活动人口(x4:百万人)的部分数据,见下表所示,分析财政收入和国民生产总值、税收、进出口贸易总额、 经济活动人口之间的关系。

表1 财政收入多因素分析数据

第 9 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 y x1 x2 x3 72.258 91.196 112.710 203.819 234.999 241.338 269.672 268.577 x4 660.91 667.82 674.68 681.35 688.55 697.65 708.00 720.87 727.91 739.92 744.32 753.60 760.75 768.23 778.77 782.44 786.45 31.4948 216.625 29.9017 34.8337 266.519 32.9691 43.45 345.605 42.553 52.1810 466.700 51.2688 62.4220 574.949 60.3804 74.0799 668.505 69.0982 86.5114 731.427 82.3404 98.7595 769.672 92.628 114.4408 805.794 106.8258 298.963 133.9523 882.281 125.8151 392.742 163.8604 943.4 153.0138 421.933 1.03 1203.327 176.35 513.782 217.1525 1358.228 200.1731 704.835 263.97 1598.783 241.6568 955.391 316.4929 1832.174 287.7854 1169.218 387.6020 2119.235 348.0435 1409.714 513.2178 2495.299 456.2197 1667.402 613.3035 3006.700 542.1962 1778.83 790.48

1. 基本统计分析和R语言命令(15分)

(1) 如果将该数据存入到一个文本文件reg.txt中,写出将该文本数据读入

数据框dat中的R命令:dat=read.table(\"reg.txt\(1分) (2) 如果将该数据拷贝到剪切板中,写出将该数据读入数据框dat中的

第 10 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

R命令:dat=read.table(\"clipboard\(1分) (3) 写出提取2000年数据的R命令: dat[10,] (1分)

写出提取税收(x2)数据的R命令:dat[,5] (1分)

写出提取2001年至2008年经济活动人口(x4)数据的R命令:

dat[11:18,5] (1分)

(4) 写出计算财政收入统计量的R命令: summary(y) (2分)

Min. 1st Qu. Median Mean 3rd Qu. Max. 31.49 65.34 124.20 188.70 252.30 613.30

(5) 写出计算下面相关阵R命令:cor(dat)(2分)

y x1 x2 x3 x4 y 1.0000 0.9924 0.9999 0.9874 0.8736 x1 0.9924 1.0000 0.9938 0.9883 0.9126 x2 0.9999 0.9938 1.0000 0.9881 0.8811 x3 0.9874 0.9883 0.9881 1.0000 0.8807 x4 0.8736 0.9126 0.8811 0.8807 1.0000

(6) 写出计算下面回归系数的R命令:fm=lm(y~x1+x2+x3+x4,data=dat);fm(2分)

Coefficients:

(Intercept) x1 x2 x3 x4 84.62030 0.00207 1.16908 -0.00305 -0.13391

(7) 写出计算下面检验的R命令:summary(fm) (2分)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 84.62030 12.74442 6. 1.6e-05 ***

第 11 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

x1 0.00207 0.00491 0.42 0.68 x2 1.16908 0.02113 55.32 < 2e-16 *** x3 -0.00305 0.00367 -0.83 0.42 x4 -0.13391 0.01969 -6.80 1.3e-05 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.18 on 13 degrees of freedom Multiple R-squared: 0.999, Adjusted R-squared: 0.998 F-statistic: 8.87e+04 on 4 and 13 DF, p-value: <2e-16

(8) 写出计算下面检验的R命令:

fm1=lm(y~x2+x4,data=dat);fm1 summary(fm1) (2分)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 82.10361 9.04442 9.078 1.76e-07 *** x2 1.16768 0.00385 303.331 < 2e-16 *** x4 -0.12945 0.01318 -9.818 6.36e-08 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.126 on 15 degrees of freedom

第 12 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

Multiple R-squared: 1, Adjusted R-squared: 1 F-statistic: 1.942e+05 on 2 and 15 DF, p-value: < 2.2e-16

2. 在上面计算的基础上进行进一步分析(15分)

(1) 试问该回归方程有无统计学意义,为什么?(2分)

由F检验结果可知,P值小于0.5,于是在0.05的显著性水平上拒绝原假设,所以认为整个回归方程有统计学意义。

(2) 该模型的复相关系数、决定系数、调整复相关系数平方和剩余标准差(3分)

复相关系数:0.9994 决定系数:0.999

调整复相关系数平方:0.998 剩余标准差:1.18

(3) 由于方程的P<0.001,能否说明每个自变量都有显著作用,为什么?(3分)

整个方程的统计学意义判定可以由F检验得知,每一个自变量的显著性应由t检验得到。故由t检验结果可知,偏回归系数b2和b4的P值小于0,可认为解释变量税收x2、经济活动人口x4,显著;b1和b3的P值大于0.5,不能否定解释变量系数为0的假设,可以认为国内生产总值x1、进出口贸易总额x3对财政收入没有影响。

(4) 本例是用何种方法做的回归分析,你认为应该用什么方法为好?(3分)

本例是采用全部子集法,应该采用逐步回归法

第 13 页 共 14 页

……………………………………………………………最新资料推荐…………………………………………………

(5) 预测:试用该方程对来年的财政收入进行预测,已知:x1=3100(百亿元),

x2=560(百亿元), x3=1900(百亿元), x4=800(万人),试写出预测其结果的R语句并用建立的模型计算预测结果。(4分) R语句:

predict(fm,data.frame(x1=3100,x2=560,x3=1900,x4=800)) 预测结果: 632.4478

第 14 页 共 14 页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务