第三节 置信区间
前面讨论了参数的点估计, 它是用样本算出的一个值去估计未知参数. 即点估计值仅仅是未知参数的一个近似值, 它没有给出这个近似值的误差范围.
例如, 在估计某湖泊中鱼的数量的问题中, 若根据一个实际样本, 利用最大似然估计法估计出鱼的数量为50000条, 这种估计结果使用起来把握不大. 实际上, 鱼的数量的真值可能大于50000条, 也可能小于50000条.且可能偏差较大.
若能给出一个估计区间, 让我们能较大把握地(其程度可用概率来度量之)相信鱼的数量的真值被含在这个区间内, 这样的估计显然更有实用价值.
本节将要引入的另一类估计即为区间估计, 在区间估计理论中, 被广泛接受的一种观点是置信区间, 它由奈曼(Neymann)于1934年提出的.
内容分布图示
★ 引言 ★ 置信区间的概念
★ 例1 ★ 例2
★ 寻求置信区间的方法 ★ 例3
★ (01)分布参数的区间估计 ★ 例4
★ 单侧置信区间
★ 例5 ★ 例6
★ 内容小结 ★ 课堂练习
★ 习题6-3 ★ 返回
内容要点:
一、置信区间的概念
定义1 设为总体分布的未知参数, X1,X2,,Xn是取自总体X的一个样本, 对给定的数1(01), 若存在统计量
(X1,X2,,Xn),(X1,X2,,Xn),
使得
P{}1,
则称随机区间(,)为的1双侧置信区间, 称1为置信度, 又分别称与为的双侧置信下限与双侧置信上限.
注: 1. 置信度1的含义: 在随机抽样中, 若重复抽样多次, 得到样本X1,X2,,Xn的多个样本值(x1,x2,,xn), 对应每个样本值都确定了一个置信区间(,), 每个这样的区间要么包含了的真值, 要么不包含的真值. 根据伯努利大数定理, 当抽样次数充分大时, 这些区间中包含的真值的频率接近于置信度(即概率) 1, 即在这些区间中包含的真值的区间
大约有100(1)%个,不包含的真值的区间大约有100%个. 例如, 若令10.95, 重复抽样100次, 则其中大约有95个区间包含的真值, 大约有5个区间不包含的真值.
2. 置信区间(,)也是对未知参数的一种估计, 区间的长度意味着误差, 故区间估计与点估计是互补的两种参数估计.
3. 置信度与估计精度是一对矛盾.置信度1越大, 置信区间(,)包含的真值的概率就越大, 但区间(,)的长度就越大, 对未知参数的估计精度就越差. 反之, 对参数的估计精度越高, 置信区间(,)长度就越小, (,)包含的真值的概率就越低, 置信度1越小. 一般准则是: 在保证置信度的条件下尽可能提高估计精度.
二、寻求置信区间的方法
寻求置信区间的基本思想: 在点估计的基础上, 构造合适的函数, 并针对给定的置信度导出置信区间.
一般步骤:
(1) 选取未知参数的某个较优估计量ˆ; (2) 围绕ˆ构造一个依赖于样本与参数的函数
uu(X1,X2,,Xn,);
(3) 对给定的置信水平1,确定1与2,使
P{1u2}1,
通常可选取满足得;
P{u1}P{u2}2的1与2,在常用分布情况下, 这可由分位数表查
(4) 对不等式作恒等变形化后为
P{}1,
则(,)就是的置信度为1的双侧置信区间。
三、(0—1)分布参数的置信区间
考虑(0—1)分布情形, 设其总体X的分布率为
P{X1}p,P{X0}1p,(0p1),
现求p的置信度为1置信区间.
已知(0—1)分布的均值和方差分别为
E(X)p,D(X)p(1p),
设X1,X2,,Xn是总体X的一个样本, 由中心极限定理知, 当n充分大时,
uXE(X)D(X)/nXpp(1p)/n
近似服从N(0,1)分布, 对给定的置信度1, 则有
PXpu/21,p(1p)/n
经不等式变形得
P{ap2bpc0}1,
222an(u),b2nX(u),cn(X). 解式中不等式得 /2/2其中
P{p1pp2}1,
其中
p111(bb24ac),p2(bb24ac).2a2a
于是(p1,p2)可作为p的置信度为1的置信区间.
四、单侧置信区间
前面讨论的置信区间(,)称为双侧置信区间, 但在有些实际问题中只要考虑选取满足
P{u1}或 P{u2}的1与2,对不等式作恒等变形后化为
P{}1 或 P{}1
从而得到形如(,)或(,)的置信区间.
例如, 对产品设备、电子元件等来说, 我们关心的是平均寿命的置信下限, 而在讨论产品的废品率时, 我们感兴趣的是其置信上限. 于是我们引入单侧置信区间.
定义 设为总体分布的未知参数,
1(01), 若存在统计量
X1,X2,,Xn是取自总体X的一个样本, 对给定的数
(X1,X2,,Xn),
满足 P{}1,
则称(,)为的置信度为1的单侧置信区间, 称为的单侧置信下限; 若存在统计量
(X1,X2,,Xn),
满足 P{}1,
则称(,)为的置信度为1的单侧置信区间, 称为的单侧置信上限.
例题选讲:
置信区间的概念
22X~N(,),例1 (讲义例1) 设总体为已知, 为未知, 设X1,X2,,Xn是来自X的样本,
求的置信水平为1的置信区间.
例2 (讲义例2) 设总体X~N(,8), 为未知参数, X1,,X36是取自总体X的简单随机样
本, 如果以区间(X1,X1)作为的置信区间, 那么置信度是多少?
寻求置信区间的方法
例3 (讲义例3) 设总体X的密度为
1xx0ef(x;)0x0
未知参数0,X1,,Xn为取自X的样本.
(1) 试证
W2nX~2(2n);
(2) 试求的1置信区间.
(0—1)分布参数的置信区间
例4 (讲义例4) 设抽自一大批产品的100个样品中, 得一级品60个, 求这批产品的一级品率p的置信水平为0.95的置信区间.
单侧置信区间
例5 (讲义例5) 从一批灯泡中随机地抽取5只作寿命试验, 其寿命如下(单位:h)
1 050 1 100 1 120 1 250 1 280
已知这批灯泡寿命
X~N(,2), 求平均寿命的置信度为95%的单侧置信下限.
例6 假设总体X~N(,2), 从总体X中抽取容量为10的一个样本, 算得样本均值
0.95的单侧置信区间的下限.
x41.3, 样本标准差S1.05, 求未知参数的置信水平为
课堂练习
1. 为考虑某种香烟的尼古丁含量(以mg计), 抽取了8支香烟并测得尼古丁的平均含量为x0.26. 设该香烟尼古丁含量X~N(,2.3). 试求的单侧置信上限, 置信度为0.95.