您好,欢迎来到微智科技网。
搜索
您的当前位置:首页多元统计分析讲义(第一章)

多元统计分析讲义(第一章)

来源:微智科技网
Equation Chapter 1 Section 1

注意电子文档使用范围 《多 元 统 计 分 析》

Multivariate Statistical Analysis

主讲:统计学院 许启发(******************)

统计学院应用统计学教研室

School of Statistics 2004年9月

第一章 绪 论

【教学目的】

1. 让学生了解什么是多元统计分析?它的发展与现状; 2. 让学生了解多元统计分析的主要范畴、功能; 3. 回顾相关的矩阵理论和多元正态分布理论; 4. 阐述多元数据的表示方法。

【教学重点】

1. 从一元到多元的过度; 2. 多元正态理论及其相关命题。

§1 引言

一、什么是多元统计分析

在实践中,常会碰到需要同时观测若干指标的问题。例如衡量一个地区的经济发展水平:总产值、利润、效益、劳动生产率等;在医学诊断中,有病还是无病,需做多项检测:血压、体温、心跳、白血球等①

提出问题:如何同时对多个随机变量的观测数据进行有效的分析和处理?有两种做法:分开研究;同时研究。但前者会损失一定的信息量。

多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律的一门学科,利用其中的不同方法可对研究对象进行分类和简化。

二、多元统计分析的产生和发展

1.1928年Wishert发表论文《多元正态总体样本协方差阵的精确分布》,是多元统计分析的开端; 2.20世纪30年代,Fisher, Hotelling, 许宝碌等奠定了多元统计分析的理论基础;

3.20世纪40年代,在心理学、教育学、生物学等方面有不少应用,但由于计算量大,发展受到; 4.20世纪50年代中期,随着计算机的出现和发展,使多元分析方法在地质、气象、医学和社会学方面得到广泛应用;

5.20世纪60年代,通过应用和实践又完善和发展了理论,使得它的应用范围更广;

6.20世纪70年代初期,才在我国受到各个领域的极大关注,近30多年在理论上和应用上都取得了若干新进展。

三、多元统计分析的主要范畴(研究内容)

在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的数据信息。这类原始数据集合往往由于样本点数量巨大,用于刻画系统特征的指标变量众多,并且带有动态特性,而形成规模宏大、复杂难辨的数据海洋。如何分析和认识高维复杂数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐藏在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运动历程。利用统计学和数学方法,对复杂数据集合进行科学分析的理论和方法,就是多元统计数据分析研究的基本内容。 ①

实际上,每项指标都是随机变量。

1 第 页

其主要范畴包括:多元正态总体的参数估计和假设检验以及常用的统计方法。具体地有:多元数据图表示法;多元回归分析;聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析;路径分析;标度分析等。

四、多元统计分析的功能和应用领域

主要用于对高维数据进行处理,包括:简化数据和数据结构、能够进行假设检验、进行分类和组合、进行相应的评价、预测、控制等。

主要用于:经济学、医学、教育学、心理学、体育科学、生态学、地质学、社会学、考古学、军事科学、环境科学、文学等。

五、如何学习多元统计分析

可以说《多元统计分析》课程有两种讲授方法和学习方式:一是重理论推导型;二是重实证应用型。我们的讲授以实证应用为主,辅以部分的理论介绍。同学们应该重点学习多元统计分析中各种常用的分析方法,领悟与掌握各种方法的实际背景、基本思想、理论依据、应用场合和可能结论,同时对每种方法会解决实际问题。

每一部分都配有相应的案例①,请同学在上机的时候完成,也作为平时作业给予相应的成绩。

六、先修课程 1.线性代数 2.概率论 3.数理统计

4.相应的统计软件 5.经济学

七、统计和计算机和统计软件

现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而设计和建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。当然计算机现在早已脱离了仅有数字计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形在内的各种形式。

统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。人们可能会问,是否傻瓜式统计软件的使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、选项不矛盾而且不用零作为除数就一定给你结果,而且几乎没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。

统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。

1.SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。 ①

这些案例都有相应的经济背景,以后学生可在论文写作和毕业工作中套用这些模式。

2 第 页

2.SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国机构认可而使用。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。

3.Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。 4.Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是已经具备的了。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用宏命令来编程;这时就没有相应的简单选项了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。

5.S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大而又方便的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。

6.R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的从事各个方向研究的统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。它的语言结构和C++、Fortran、Matlab、Pascal、Basic等很相似,容易举一反三。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。

7.Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。

8.MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计函数不多。

9.Eviews:这是一个处理回归和时间序列等问题很方便的软件。

10.GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。

11.FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有许多数学软件包和一些统计软件包。由于可以编译成机器语言,计算速度比这里介绍的其他软件都快得多。但需要编程和编译。

当然,还有很多其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的软件也不会困难;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。学习软件的最好方式是需要时在使用中学。

八、几点要求

1.复习矩阵代数及数理统计的有关内容; 2.及时消化课堂内容; 3.按时完成作业; 4.其它事项。 九、参考书目

1.孙慧钧:《多元统计分析方法与应用》,内蒙古大学出版社,1997年8月。 2.于秀林、任雪松:《多元统计分析》,中国统计出版社,1999年8月。 3.罗积玉、邢英:《经济统计分析方法及预测》,清华大学出版社,1987年8月。 4.何晓群:《应用回归分析》,中国人民大学出版社,2001年6月。 5.Ruchard A. Johnson & Dean W. Wichern著,陆璇译:《实用多元统计分析》,清华大学出版社,2001年4月。

3 第 页

6.张尧庭、方开泰:《多元统计分析引论》,科学出版社,1997年8月(第三次印刷)。 7.方开泰:《实用多元统计分析》,华东师范大学出版社,19年9月。 8.胡国定,张润楚:《多元数据分析方法—纯代数处理》,南开大学出版社,1990年。 9.张润楚:《多元统计理论与数据分析方法》(校内讲义),南开大学数学科学学院,2003年2月。

10.任若恩:《多元统计数据分析—理论、方法、实例》,国防工业出版社,1997年6月。 11.郭志刚:《社会统计分析方法——SPSS软件应用》,中国人民大学出版社,1999年12月。

12.卢纹岱、朱一力、沙捷、朱红兵:《Spss for Wingdows从入门到精通》,电子工业出版社,1997年6月。

13.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;

14.Anderson,T.W.(1984), An Introduction to Multivariate Statistical Analysis, 2nd ed., New York: John Wiley & Sons.

15.Eaton,M.L.(1983), Multivariate Statistics:A Vector Space Approach, New York: John Wiley & Sons.

16.Johnson,R.A. and Wichern,D.W.(1982), Applied Multivariate Statistical Analysis, New York: Prentice-Hall, Inc.

4 第 页

§2 矩阵理论及随机向量①

本节主要介绍多元统计分析中用到的矩阵和向量代数知识,以及将概率论及数理统计中的随机变量理论推广到随机向量。

一、矩阵代数②

1. 单位矩阵:II1,IBBIB; 2. 对称矩阵:AA;

3. 转置运算:ABCCBA; 4. 逆运算:ABCC1B1A1; 5. 矩阵乘法:ABBA;

6. 矩阵的迹:主对角线元素之和③;

tr(A)tr(A)1ni

tr(AB)tr(A)tr(B) tr(AB)tr(BA)

17. 正交矩阵④:AAI或AA1; 8. 幂等矩阵:A2A;

9. 投影矩阵:对称的幂等矩阵; 10.平方根矩阵:A1/2

因A正定,必存在正交矩阵U,使得 UAUdiag1,,n

1/21/2AUUUUUUA1/2A1/2

二、随机向量和随机矩阵

随机向量是元素为随机变量的向量;随机矩阵是元素为随机变量的矩阵。 定义1:设XpX1,,Xp,若对于任意的i1,2,,p,Xi均为随机变量,则称Xp为p维随机向

量。

定义2:设Xmnxij中每一个元素xij均为随机变量,则称X为mn维随机矩阵。

mn三、随机向量及其分布

设XpX1,,Xp为一p维随机向量,如果该向量在空间Rp中存在概率分布,即对任何

y,1,ypRp,概率

Fy1,,ypPx1y1,,xpyp

存在。并称p元函数为Xp的分布函数,记Xp~F,称Xp服从F分布,也称F为Xp的联合分布函数。

如果一个随机向量XpX1,,Xp,有空间Rp中的非负函数f(x)使得其分布函数可表为积分

FXxf(u)du,XRp

这里讨论的均值向量和协方差矩阵均为总体的,实际上还可以讨论样本均值向量和样本协方差矩阵。一些概念和结论可以从一元随机变量那儿推广过来。 ②

可以参阅《经济学家的数学手册》一书。

①③④

这里i为矩阵A的特征根。Ai。

正交矩阵的各行和各列分别都是正交的。

5 第 页

X为连续型随机向量,则称f(X)为Xp的概率分布密度函数(简记为pdf)。

四、均值向量和协方差矩阵

1.均值向量和均值矩阵

设XpX1,,Xp,若EXii,i1,2,,p存在,则称EX1,,p向量。同理,称EXmnExij为随机矩阵X的期望矩阵或均值矩阵。

mn2.协方差矩阵(方差-协方差矩阵)

令iii2i1,2,,p,ijEXiiXjji,j1,2,,p且ij则称 1p111221222p为随机向量X的协方差矩阵。 pp2ppp1那么由Σ的定义知

11122122Σp1p2μ为随机向量Xp的均值

1pE(X11)22pE(X22)(X11)ppE(X11)(X22)E(X22)2E(X)(X)E(X)(X)pp11pp22(X11)(Xpp)(X22)(Xpp) (Xpp)2E(X11)(Xpp)E(X22)(Xpp) E(Xpp)2(X11)2(X11)(X22)(X22)(X11)(X22)2E(X)(X)(X)(X)p11pp22pX11X22XE11XppX22Xpp

EXμXμCovX

NOTE:协方差阵Σ的特点:

①ijji,对于任意的i,j1,2,,p,即Σ为对称矩阵;

②当ij时,为第i个分量Xi的方差;

③对于任意的i,j,ij表示X的第i个分量与第j个分量的协方差。若ij0,则称Xi与Xj是互不相关的①。

3.相关系数矩阵

ij令ij(i,j1,2,,p),则ij为变量Xi与Xj的相关系数,它度量了随机变量Xi与Xj之间

iijj的线性相关程度②。则称pp阶矩阵ρijpp为随机变量X的相关系数矩阵。

在概率论中,我们已经知道,若Xi与Xj相互,则它们互不相关,但反之未必成立。

ij的值越在,说明Xi与Xj之间的线性相关程度越大,反之越小。当ij0时,Xi与Xj正相关;当ij0时,Xi与Xj负相关。

6 第 页

若记V1/21122pp1/21/2,则ρVΣV。 pp若V1/2已知,则ρ与Σ之间相互确定。事实上,ρV1/2ΣV1/2ΣV1/2ρV1/2①。 作业

五、随机向量线性变换的均值向量和协方差矩阵

设X是p维随机向量,A为mp阶常数矩阵,b为m维向量,令YAXb,则Y为m维随机向量。 1.EYAEXbAμb; 2.CovYACovXAAΣA

作业:

设X和Y分别为p维和q维随机向量,定义Cov(X,Y)E(XEX)(YEY)②,且A和B分别为mp和nq维常数矩阵,则有下面结论:

3.Cov(AX,BY)ACov(X,Y)B 左乘是行变换,右乘是列变换。 ②

称为互协方差矩阵,描述随机向量之间的线性相关关系。

7 第 页

六、随机向量的二次型

设XpX1,A为pp阶对称矩阵,,Xp为p维随机向量,则称随机变量XAXaijXiXj为X的

i1i1pp二次型。

1.设EX,CovX,则EXAXAtrA。其中trA表示矩阵A的对角线上的元素和。

特别地,(1)若0,则EXAXtrA; (2)若2I,则EXAXA2trA; (3)若0,2I,则EXAX2trA。

8 第 页

§3 多元正态分布及其推广①

多元正态分布是多元统计分析的基础,其地位如同一元统计分析中的一元正态分布一样。把我们熟悉的一元正态分布向多元推广,在多元分析中起着十分重要的作用。多元统计中的大多数方法都是基于数据从一个多元正态分布生成的假设。虽然实际的数据从来不会恰好是多元正态的,然而正态分布常常是“真实的”总体分布的一种有效近似。

正态分布的重要性在于它的双重作用,既可作为某些自然现象总体模型,又可作为许多统计量近似的抽样分布。

一、多元正态的概率密度及其性质

1.多元正态概率密度

多元正态分布是一元正态向p2维的推广。 定义:若随机变量X的概率密度函数为

121f(x)exp2x,x

22则称X具有均值为,方差为2的正态随机变量,记为X~N(,2)。

定义:若p维随机向量XpX1,,Xp的密度函数为 f(X)f(x1,,xp)12p1expX1X,XRp 1/22其中1,,p,是正定矩阵,则称X服从p元正态分布,记作:X~Np(,)。

NOTE:①当p1时,即为一元正态分布密度函数;

②为X的均值,为X的协方差矩阵;

③当0时,该定义有缺陷,采取下面的定义方式。

定义:标准正态变量X1,,Xp的有限组合

Y1X1YAmpm1

YXmm称为m维正态随机向量,记为Y~Nm(,),其中AA。

NOTE:①这种定义是用多个正态变量的任意线性组合给出多元正态随机向量的定义,其优点是多元正态的某些性质,可用一元正态性质得到;

②除此之外,还有特征函数的定义。

重要特例:二元正态分布

除多元正态分布,还有其它许多重要的多元分布,如:椭球等高分布簇、多元指数型分布簇、其它一些多元分布(这些多元分布可以由一元分布推广而得到,主要的推广方法有:直接推广法、共成分推广法、随机推广法)。

9 第 页

重要的参数有:1,2,11,22,。 当0时,X1与X2不相关,此时有

f(X1,X2)(X11)2exp212211(X22)2expf(X1)f(X2) 222221

所以X1与X2相互。

即对于二元正态变量来说,X1与X2不相关X1与X2相互。 % 多元正态概率密度函数图——源代码

mu=[1,-1];

Sigma = [1 0; 0 1];

X = mvnrnd(mu,Sigma,10000); p = mvnpdf(X,mu,Sigma); plot3(X(:,1),X(:,2),p);

二、多元正态变量的基本性质

1. 若XpX1,,Xp~Np(,),是对角矩阵,则X1,有X~Np(,),则X~Np(,);

推论:若X~Np(,),则对于任意的i,有Xi~N(i,ii),i1,,p且

XiXj~N(ij,iijj2ij)

,Xp相互;

2. 若X~Np(,),则对于任意p维向量,有X~Np(,);反之,若对于任意p维向量,

成立。即正态变量的任何一个分量仍是正态变量,任何两个分量的和与差均为正态变量;

3. 若X~Np(,),Amp为常数矩阵,dm为m维常数向量,则YAmpXp1~Nm(A,AA),且

YAmpXp1dm~Nm(Ad,AA),即正态随机向量的线性函数还是正态的;

推论1:若X~Np(,),则Y1/2X~Np(0,I);

第 10 页

2推论2:若X~Np(,),则X1X~p;

4. 若X~Np(,),将X,,可以作如下分割

X(1)(1)11X(2),(2),21Xpqpqqq12 22pqq则X(1)~Nq((1),11),X(2)~Npq((2),22);

X11111213(1)(1)X1112例如:若X~N3(,),记XX2(2),2(2),,则 222321X22X213331323312X(2)(2)X(1)1~N2((1),11),其中(1)1,1111;XX3~N1(,22)N3,33。

X222122X(1)5. 设X(2)~Np(,),则X(1)与X(2)相互120。

Xpqq6. 设X(1)~Nq((1),11),X(2)~Npq((2),22),且X(1)与X(2)相互,则

(1)11X(1),(2)~Nqpq(2)X00 22

NOTE:①多元正态分布的任何边缘分布都是正态分布,但反之不真; ②由于12CovX(1),X(2),故120表示X(1)与X(2)不相关;

③对于多元正态变量来说,X(1)与X(2)不相关与是等价的;

④要判断一批数据是否来自正态总体较困难,但反过来却有简易的方法①; ⑤对于非正态数据可以通过幂指数变换和Box-Cox变换成近似正态。

三、多元正态分布的参数估计

设X~Np(,),其均值向量和协差阵未知。 1.多元样本的概率及表示

从多元总体中随机抽取n个个体:X(1),X(2),,X(n),若它们相互且与总体同分布,则称

X(1),X(2),,X(n)为该总体的一个多元随机样本,简称简单样本。

将n个样品对p个指标进行观测,结果如下

X11X21XXn1X12X22Xn2X1pX(1)X2pX(2) ② XXnp(n)其中,X(i)Xi1,或样本资料库。

,Xip。把每个样品X(i)看作一个随机向量,因此X就是一个随机矩阵,X为观测矩阵

如果X服从多元正态分布,则它的每个分量必服从一元正态分布。一元正态分布的检验方法比较成熟,常用的有:直方

图,P-P图,Q-Q图,正态概率纸,K-S检验,卡方拟合优度检验等。 ②

行代表样品,列代表指标。

第 11 页

NOTE:①多元样本中的每个样品,对p个指标的观测值往往有相关关系,但不同样品之间的观测值一定相互;

②多元分析处理的多元数据一般都属于横截面数据(PANEL DATA),如果是时序数据则属于多元时间序列分析的范畴。

2.多元样本的数字特征①

定义:设X(1),X(2),,X(n)为来自p元总体的样本,其中X(i)Xi1,(1)样本均值可定义为

1nXX(i)X1,,Xp ni1(2)样本离差阵可定义为

Xi1X1X(i)XX(i)XXi1X1i1i1XipXpnn,Xip(i1,,n)

SppXipXp

X1XipXpi2X2XipXp

2XipXpi12Xi1X1nXX2Xi1X1i2i1XXXXpi11ipXi1X1Xi2X2Xi2X22XXXipXpXi2X2S11S21Sp1S12S22Sp2S1pS2pS ijppSpp(3)样本协差阵可定义为

11nVSppX(i)XX(i)XVij ppnni1(4)样本相关阵可定义为 Rrij pprijVijViiVjjSijSiiSjj 3.多元正态分布参数的极大似然估计及其基本性质 (1)极大似然估计的定义、基本步骤 定义

样本均值向量和样本协差阵也可用样本资料阵X直接表示,详见教材P26。

第 12 页

步骤:STEP01:求样本似然函数; STEP02:求对数似然函数; STEP03:求似然函数的极大化。

(2)一元正态分布参数的极大似然估计

(3)多元正态分布参数的极大似然估计

为了方便地求解参数地极大似然估计,先引入如下引理。

引理:设B为pp阶对称正定矩阵,常数b0,则对任意正定矩阵,有

1betr(1B)/21B2bbbpebp

仅当1B时,等号成立。 2b,Xn为来自X的样本,则

定理:设X~Np,,X1,X2,ˆˆX,1nn1XiXXiXS ni1n分别是和的极大似然估计量,其观测值称为和的极大似然估计值。

第 13 页

(4)极大似然估计量的基本性质

第 14 页

①无偏性:

EX,即X是的无偏估计;

11n1ES,即S不是的无偏估计;

nnn11而ES,即S是的无偏估计;

n1n1②X,

1S分别是,的有效估计; n111③X,S(或。 S)分别是,的一致估计(相合估计)

nn1样本均值向量和样本离差阵在多元统计推断中具有十分重要的作用,并有如下结论: 定理:设X和S分别是正态总体Np,的样本均值向量和离差阵,则 1(1)X~Np,;

n,其中Z1,,Zn同分布于Np0,; (2)离差阵S可以写为:SZZi1n1(3)X与S相互;

(4)S为正定矩阵的充要条件是np。

四、多元正态分布的变形形式①

在一元统计分析中,我们有2,t,F和beta等一些基本统计量分布,以这些分布作为基础对一元统计问题进行推断。和一元情形一样,多元统计分析也需要建立一些基本的多元统计量分布作为多元统计问题分析的基础。Wishart分布,T2分布和分布等分布就是其中的最重要的几种。Wishart于20世纪20年代导出Wishart分布,后来又由Hotelling, Wilks, 许宝禄等人建立了T2和等分布,这些为多元分析奠定了基础。

1.Wishart分布及其性质

首先回顾2分布定义。如果xi,i1,2,,n为同分布于N(0,2),则xi,i1,2,n222x~n;如果ii1nn2,n相互,且各自的分布分别为N(i,2),则i1xi2~2n0,其中0i1i2。

(1)定义(两种形式的定义)

首先从形式上推广,有矩阵形式的定义。

定义:设X(i)Xi1,,Xip~Npi,,i1,2,,n且相互,则由X(i)组成的随机矩阵 WppX(i)X(i)

i1n的分布称为非中心Wishart分布,记为Wpn,,Z。其中,n,p称为分布的自由度;Zi1,,ini1,,inii为非中心参数。当Z0时,该分布称为中心的Wishart分布,记为

i1nWpn,。

NOTE:显然Wishart分布是2分布在p维正态情况下的推广,因为当p1时,W1n,2,Z就是

22n(Z),其中Z为非中心参数。

其次给出它的密度形式定义,这是由Wishart(1928)导出的。这里只给出它的中心分布的密度形式,非中心分布的密度比它复杂。 ①

在介绍这些分布之前,应该首先介绍二次型的分布。

第 15 页

定义:设W(wij)pp为p阶对称随机矩阵,并以概率1正定。如果其上对角块元素a11,a22,度函数

fa11,a22,,appW1/2(np1),app有密

2np/2p(p1)/41exptr1W2,pn/21i1(ni1)2W0

(2)基本性质

性质1:若W1~Wm,W2~Wn,且W1与W2相互,则W1W2~Wmn。 性质2:若W~Wm,则CWC~WmCC。 2.Hotelling T2分布 在一元统计中,若X1,X2,t2,Xn来自总体N(,2)的样本,则统计量:

n(X)~t(n1) ˆˆ2(X)1n(n1)S2(n1)22ˆ其中,~N(0,1),(XiX)。事实上,~n1,则 22n1i1/n(X)ˆ2(n1)/(n1)n(X)~tn1

/n2显然,

n(X)221ˆtn(X)(X)

ˆ222 其中,X~N0,1n(1)定义

定义:设X~Np(,),S~Wp(n,)且X与S相互,np,则称统计量 T2nXSX

的分布为非中心Hotelling T2分布,记为T2~T2(p,n,)。

NOTE:①该分布首先由Harold Hotelling提出,我国统计学家许宝禄于1938年用不同的方法也导出了T2分

布的密度函数;

②由定义可知,该分布是一元t分布的多元推广。

(2)性质

在一元统计中,若统计量t~t(n1)分布,则t2~F(1,n1)分布,即把t分布的统计量转化F统计量来处理,在多元统计分析中T2统计量也有类似性质。

若X~Np(,),S~Wp(n,)且X与S相互,np,令T2nXSX,则 np12T~F(p,np1) np3.Wilks 分布

回顾一元时的Beta分布。

第 16 页

22设a~n,b~m,且相互,则

a~1n,1m。 22ab下面引入多元情形下的类似分布。 (1)定义

定义:设A1~Wpn1,,n1p,A2~Wpn2,,0,且A1与A2相互,则称

A1A1A2

为Wilks统计量,的分布为Wilks分布,简记为~(p,n1,n2)。其中,n1,n2为自由度。

NOTE:①当p1时,显然正好是一元统计中的Beta分布,因此它是Beta分布在多元情形的推广; ②分布还有一些非常特殊的形式;

③在实际应用中,经常把统计量化为T2统计量进而转化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。

事实上,当n21时,用n代替n1,可以得到它们之间的关系如下:

(p,n,1)1211nT(p,n)n2np

(2)性质

(nip),1p,i1,2,,m相互。 性质1:(p,n1,n2)~ui,其中ui~122i1性质2:(p,n1,n2)和(n2,n1n2p,p)具有相同的分布。

五、多元变量的正态性检验

1.X和S的抽样分布 定理:设X~Np(,),X1,X2,X,Xn是来自总体X的样本,有

1n1n,XSXiXXiX ini1n1i1); 则:(1)X~Np(,1n(2)(n1)S~Wn1();

(3)X与S是相互的。 2.X和S的大样本特性

在一元中,无论总体的分布类型如何,由中心极限定理知,样本均值近似服从正态分布,只要样本容量n充分大。这个结论对于多元也成立。

定理(中心极限定理):设X1,X2,,Xn是来自任何有均值与有极限协方差矩阵的总体的观测结果,则对大样本容量有

nX~Np(0,)

又因为当n充分大时,S依概率收敛到,从而

2nXS1X~p

3.多元正态分布的检验

根据正态分布的性质,多元正态分布的边缘分布是正态分布,且多元正态密度的轮廓线是椭球面,因此,可以提出下面几个问题:

(1)X的每个分量的边缘分布是否是正态?分量Xi的几个线性组合是否是正态?

(2)根据各种特征的观测结果所作出的散布图,是否呈现出正态总体期望的椭圆形状?

第 17 页

(3)是否存在应该进行检验以确保精确度的“杂乱”观测值?

问题可以转化为一元正态性的检验和二元正态性的检验,现将其叙述如下: 二元正态分布的检验方法: 方法1:轮廓线

如果观测值是一个从多元正态分布生成的,则每个二元分布是正态变量,其常数密度轮廓线应是椭圆;散布图显示一个近乎椭圆的形状,从而与这个结构一致。

方法2:卡方图

在判断一个数据集的联合正态性时,一种更正式一些的方法是基于广义平方距离: 1XX,d2jjXjXSj1,2,,n

其中X1,X2,,Xn是样本观测值。

当总体是多元正态的且n与np都很大时,

2d2XXS1XX~p

构造卡方图的方法:

4.多元正态数据的获得

如果数据不是来自正态总体,则许多统计方法就不能直接使用,为此,我们考虑通过数据变换,使非正态数据变成更接近正态的数据。在适当的数据变换后,就可以实现正态理论分析。而Box-Cox变换可以实现这一使命。

第 18 页

§4 关于均值向量和协差阵的推断

从本节开始,就转入多元统计学的方,将集中讨论关于总体均值向量及其分量的统计推断问题。虽然将从假设检验开始统计推断的讨论,但最终目的还是要基于联合置信域的形式给出均值向量诸分量的一个完整的统计分析。

多元分析的精髓之一就是必须对p个相关变量同时进行分析。

一、均值向量的检验

1.均值向量的检验

2.协差阵相等时,两个正态总体均值向量的检验 3.协差阵不等时,两个正态总体均值向量的检验 4.多个正态总体均值向量的检验(多元方差分析)

二、协差阵的检验

1.一个正态总体协差阵检验 2.多个协差阵相等检验

第 19 页

§5 多元数据的图形分析法

一、问题提出

图形有助于对数据的直观了解,一般只能给出1维、2维和3维的图形。但在许多实际问题中,多元数据的维数都大于3。自20世纪70年代以来,关于多元数据的图表示法,人们设计了不少的办法,大体上可以分为两类:

第一,使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系;

第二,在尽可能多地保留原数据信息的原则下降维,若能将数据维①数降至3维或以下,则可以在空间、平面上进行作图。

二、轮廓图

1.作图步骤 2.图形样式

三、雷达图(蛛网图)

1.作图步骤 2.图形样式

NOTE:①只有正半轴,负的数据要作适当的变换; ②可将数据进行标准化后作图; ③可以根据图形的相似性分组

四、调和曲线图

是由Andrews于1972年提出的三角多项式作图法,又称为三角多项式图,其基本思想:把高维空间中的一个样品点对应二维平面上的一条曲线。

1.作图步骤 2.图形样式

NOTE:调和曲线具有较好的数学性质:保线性关系;保欧氏距离。

五、星座图

是将高维空间中的样品点投影到平面上的一个半圆内,用投影点表示样品点。

假设每个数据单元由P2个变量的非负观测值组成。在二维空间中,我们可以构造具有固定(参照)半径的圆,从圆心引出P条等距的射线,这些射线的长度代表变量的数值,以直线连结射线的端点即形成一个星形。每个星形代表一个多元观测值,这些星形可根据它们(主观的)相似性分组。

在构造星形时,有时需要将观测值标准化,在这种情况下,一些观测值会是负数。观测值可以重新表示,使得圆心代表整个数据集中的最小标准观测值。

1.作图步骤 2.图形样式

降维的方法主要有:主成分分析、因子分析等。

第 20 页

Icon Plot (多元统计P559.sta 8v*22c)Clockwise: x1 x2 x3 x4 x5 x6 x7 x8

六、脸谱图

人们的反应表现在脸上。切尔诺夫脸假定用二维平面的脸来表示P维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,眼睛的大小,瞳孔的位置等等)是由P个变量的值所决定的。

按照最初的设计,切尔诺夫脸可处理多达18个变量。脸部容貌对应的变量的分配可以由实验者自己完成。不同的选择会产生不同的结果

Chernooff于1973年提出了将每个指标用人脸形的某一部位的形状或大小来表达,这样利用p个指标的数值就可以构划出一个人的脸谱,利用这些脸谱的差异,就反应了所对应的样品之间的差异特性。利用脸谱图的直观性,可以给我们的数据分析带来很大的方便。

1.作图步骤 2.图形样式

切尔诺夫脸对主要用来:

(1)由题材知识和直觉知识提出的最初的分组; (2)由聚类算法产生的最终的分组。

例子:22家公用事业公司的观测值用切尔诺夫脸表示出来,我们可以得到以下对应关系:

变量

X1:固定费用保障比率 X2:资本回报率

X3:每千瓦负载量的费用 X4:每年负载因子

X5:从1974年起高峰期千瓦小时需求的增长量 X6:销售额总量(每年使用千瓦小时) X7:核的百分比

X8:总的燃料费用(美分/千瓦小时)

面部特征

脸的半高度 脸的宽度 嘴中心的位置 眼睛的倾斜

眼睛的离心率(高/宽) 眼睛的半长 嘴的曲率 鼻子长度

第 21 页

Icon Plot (多元统计P559.sta 8v*22c) face/w = x1 ear/lev = x2 halfface/h = x3 upface/ecc = x4 loface/ecc = x5 nose/l = x6 mouth/cent = x7 mouth/curv = x8 NOTE:整个脸谱图的各部分,可以用18个变量刻划出来,当变量数p18时,则可以将脸谱中某n个部位固定(取为某一固定常数),当p18时,也可以考虑在脸谱中再增加一些部位,或者将相关系数比较大的变量进行合并,使得p18。

【本章思考题】

1.什么是多元统计分析?

2.多元统计分析主要内容有哪些?

3.了解多元正态分布及其变种与一元正态分布及其变种之间的对应关系? 4.多元数据处理的方式有哪些?

【作业】

作业1

作业2

第 22 页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务