统计学基础知识
主要内容
第一节 总体,样本和随机函数
第二节 对总体的描述――随机变量的数字特征
第三节 对样本的描述――样本分布的数字特征
第四节 随机变量的分布――总体和样本的连接点
第五节 通过样本,估计总体(一)――估计量的特征
第六节 通过样本,估计总体(二)――估计方法
第七节 通过样本,估计总体(三)――假设检验
四个基本定义与统计学的逻辑结构
总体和个体
样本和样本容量
随机变量
统计量
统计学的逻辑结构
总体(集合)和个体(构成集合的元素)
研究对象的全体称为总体或母体,组成总体的每个基本单位称为个体.
(1)按组成总体个体的多寡分为:有限总体和无限总体;
(2)总体具有同质性:每个个体具有共同的观察特征,而
与其它总体相区别;
(3)度量同一对象得到的数据也构成总体,数据之间的差
异是绝对的,因为存在不可消除的随机测量误差;
(4)个体表现为某个数值是随机的,但是,它们取得某个
数值的机会是不同的,即它们按一定的规律取值,即
它们的取值与确定的概率相对应.
样本和样本容量
总体中抽出若干个个体组成的集体称为样本.样本中包含的个体的个数称为样本的容量,又称为样本的大小.
抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本.
随机变量
根据概率不同而取不同数值的变量称为随机变量(Random Variable).
注意:
(1)一个随机变量具有下列特性:RV可以取许多不同的数
值,取这些数值的概率为p,p满足:0<=p<=1.
(2)随机变量以一定的概率取到各种可能值,按其取值情
况随机变量可分为两类:离散型随机变量和连续型随
机变量.离散型随机变量的取值最多可列多个;连续
型随机变量的取值充满整个数轴或者某个区间.
离散型随机变量与连续型随机变量
10 20 30 40 50
1.0
概率
概率
x
x
1.0
离散型随机变量
连续型随机变量
总体与随机变量的关系
表示总体状况的数量特征,在总体中是参差不齐的,往往以一定的概率取不同的数值,显然对于这样的数值我们采用一般的变量是无法加以描述的.但是.可以采用一种特殊的变量来表示它们.这个特殊变量就是随机变量.因为,根据随机变量的定义,随机变量以一定的概率取许多不同的值,而且概率p满足:0<=p<=1.
由于我们主要研究总体的数量特征,可以直接用随机变量来表示所研究的总体.
总体,随机变量,样本间的联系
总体就是一个随机变量,所谓样本就是n个(样本容量n)相互且与总体有相同分布的随机变量X1 ,……, Xn .
每一次具体抽样所得的数据,就是n元随机变量的一个观察值,记为(X1,……,Xn).
通过总体的分布可以把总体和样本连接起来.
总体分布是总体和样本的连接点
所谓分布,它是从全局而言的.通俗地说,分布就是某个对象在什么地方,堆积了多少.
任何一个随机变量都有自己的分布,这个什么地方就是在数轴上取什么值,堆积多少就是在那里占有的比例是多少或者概率有多大.
总体可以表示为随机变量,并具有自身的分布.
样本则是相互与总体具有相同分布的n元随机变量.因此,总体分布是总体和样本的连接点.从而,可以通过对样本特征的研究达到对总体进行研究的目的.因为它们具有相同的分布.
统计量
设(x1,x2,……,xn)为一组样本观察值,函数f( x1,x2,……,xn )若不含有未知参数,则称为统计量.
统计量一般是连续函数.由于样本是随机变量,因而它的函数也是随机变量,所以,统计量
也是随机变量.
统计量一般用它来提取或压榨由样本带来的总体信息.
样本与总体之间的关系
样本是总体的一部分,是对
总体随机抽样后得到的集合.
对观察者而言,总体是不
了解的,了解的只是样本
的具体情况.我们所要做
的就是通过对这些具体样
本的情况的研究,来推知整
个总体的情况.
……
Xn+1
Xn
…
X1
样本
总体
统计学的逻辑结构
(1)总体和样本
引入一个随机变量来描述总体
(2)对总体的描述:随机变量的数字特征
(3)对样本的描述:样本分布的数字特征
(4)总体与样本的连接点:随机变量的分布
(5)如何用样本的数字特征估计总体的数字特征及数据生成过程中的各种参数
a 估计量的优良性
b 估计方法
c 对估计量的检验――假设检验
a 估计量的优良性
1,无偏性
2,有效性
3,均方误最小
4,一致性
b 估计方法
矩法
最大似然法
最小二乘法
总体分布未知
正态总体
一般总体(大样)
已知方差
方差未知
一般总体(大样)
正态总体
估计期望
单个总体
两个总体
估计方差(常用小样本下,正态总体估计其它参数)
点估计
区间估计
c 对估计量的检验――假设检验
1. 对总体分布特征的假设检验
(1)一个正态总体的假设检验
a 检验均值:已知方差和未知方差
b 检验方差:未知均值(双尾和单尾)
(2)两个正态总体的假设检验
a 检验均值:未知方差但可假设其相等
b 检验方差:未知均值(双尾和单尾)
(3)总体分布的假设检验
a 总体为离散型分布
b 总体为连续型分布
CYL900611
学生
帖子 33
注册 2009-10-6
状态 离线 #2发表于 2010-1-31 14:45 资料 短消息
统计学的意义
计可以增强我们对历史的接受能力:劳伦斯·克劳斯在《一颗原子的时空
之旅》中有过非常有趣的统计:恺撒遇刺,临死前他深深地呼吸了最后一口气息。平时我
们呼吸的每口气中大约包含6×1022个氧原子,假设恺撒用尽全力呼吸的最后一口气比平
时大上四倍,那口气中包含了大约24×1022个氧原子。而在整个地球的大气中,氧原子的
总数是约4×1043个,也就是说,按平均计算,在大气中,每1022个氧原子中,包括了恺
撒最后一口气吸过的5个氧原子。如果我们肺活量不变,此刻还是每口气呼吸6×1022个氧
原子的话,那么,此刻我们每个人的每一次呼吸中,平均都有3个恺撒最后一口气中的氧
原子。可以证明:我们都是曾经间接地参与了伟大历史的一份子。
统计同样可以增强我们对现实的选择能力:前苏联的拉里科夫跟踪研究
15000名调查对象,初步统计表明,其中70%—80%是因为爱情而结婚的,15%—20%是因为
人人结婚才结婚的,3%—10%是因为个人利益而结婚的。进一步统计显示:因为爱情而结
婚的人,百分之一百不会感到幸福;因为利益而结婚的人70%感到不幸福;
CYL900611
学生
帖子 33
注册 2009-10-6
状态 离线 #3发表于 2010-1-31 14:47 资料 短消息
统计学的应用
统计学在我们的日常生活当中起着很重要的作用.一旦我们开始收集数据并力图描述一个状态时,就步入了统计学的领地.无论是有用的或者是令人误解的资料,统计学几乎都是具有很大影响力的.
它可以用于知道一位总统候选人在测验中的得票率,也可以用于描述经济状态,还可以用于人口统计和天气预报等领域.统计的领域在不断扩大,但我们看到任何统计分析的结果时都必须十分谨慎,不要忽略了对资料的说明.
假如有一份报纸刊登了以下消息:“在《每日调查》栏组织的一次调查中,有75%的人感染了流行性感冒.”这个结论会让人吓一大跳的.《每日调查》的人员并没有指出他们的调查范围,说不定他们只是问了办公室里的四个人,有三个得了感冒.
CYL900611
学生
帖子 33
注册 2009-10-6
状态 离线 #4发表于 2010-1-31 14:49 资料 短消息
统计学分类
一, 统计资料
统计资料是经由实验,普查,抽查或查阅历史文献所得的具体数字资料.
二, 统计分析
针对搜集得来的统计资料加以组织,呈现,分析,解释,归纳出统计资料的基本特性和重要关系.然后根据分析的结果观察资料未来的变动趋势.
三, 统计推论
根据部分个体资料以预测或推估全部个体资料,即为统计推论
CYL900611
学生
帖子 33
注册 2009-10-6
状态 离线 #5发表于 2010-1-31 14:51 资料 短消息
统计学重点难点
第1章
重点:统计研究的对象及其特点;统计学中的基本概念:总体、总体单位、标志、指标、变异、变量和变量值;数量指标与质量指标的区别;指标与标志的区别和联系;统计研究的基本方法和统计工作的一般过程。
第2章
重点:四类统计测量尺度,即定类尺度、定序尺度、定距尺度和定比尺度;调查的分类及各自的特点;调查误差的分类、产生原因和控制措施。
难点:不同测量尺度的正确应用。
第3章
重点:统计分组的步骤:选择分组标志、确定分组数目、选择分组体系;变量数列的编制方法;组距和组数的确定;组限和组中值的确定;统计图表的应用。
难点:分布数列的编制和组中值的计算。
第4章
重点:总量指标的概念与基本分类;国内生产总值的三种计算方法:生产法、收入法、支出法;国民总收入、国民净收入、国民可支配收入的计算;相对指标的六种具体形式:结构相对数、比例相对数、比较相对数、动态相对数、计划完成程度相对数、强度相对数。
第5章
重点:简单算术平均数、调和平均数、几何平均数、众数、中位数的计算方法;测定离中趋势的意义;全距、平均差、标准差及方差、变异系数指标的计算。
难点:调和平均数的计算及众数、中位数上下限的计算。
第8章
重点:简单随机抽样的原理;样本平均数、方差和标准差的计算;样本成数、方差和标准差的计算;抽样平均误差及抽样极限误差的计算;样本容量的确定;类型抽样中样本平均数、抽样误差和极限误差的计算;等距抽样中样本平均数和抽样误差的计算;系统抽样误差的估计方法;等群抽样的方法。
难点:抽样平均误差和抽样极限误差的计算,以及样本单位数的确定。
第9章
重点:序时平均数的计算方法;发展速度和增长速度的计算方法;时间数列的因素解析;移动平均法测定长期趋势;最小平方法测定长期趋势;季节变动的测定方法:按月(或季)平均法,移动平均趋势剔除法。
难点:平均发展速度的公式,定基发展速度与环比发展速度的关系,以及用最小平方法测定长期趋势。
第10章
重点:数量指标综合指数的编制方法,质量指标综合指数的编制方法,综合指数的其他编制方法如拉氏指数、帕氏指数、“理想公式”、不变价格指数、成本计划完成指数;平均指数的编制;定基指数与环比指数;指数因素分析法的步骤及应用;可变构成指数、结构影响指数和固定构成指数;平均指标变动因素分析方法的应用。
难点:指数因素综合分析法的应用。
第11章
重点:函数关系与相关关系的区别;相关关系的分类;相关分析与回归分析的联系与区别;用最小平方法进行一元线性回归分析;离差平方和的分解;相关系数的计算及检验;估计标准误差与预测。
难点:回归系数的假设检验,以及回归估计。