参数的区间估计

  • 更新时间: 2018-01-15
  • 来源: 原创或网络
  • 浏览数: 33次
  • 字数: 26321
  • 发表评论

1 数学概念与定义

1.置信区间

设总体的分布中含有一个未知数是来自总体的样本。如果对于给定的数值,统计量参数的区间估计,by 5lulu.com满足

参数的区间估计,by 5lulu.com

则称随机区间的置信度为的置信区间,参数的区间估计,by 5lulu.com发别称为置信下限与置信上限。

2.单侧置信区间

设总体的分布中含有未知参数的样本,。若统计量参数的区间估计,by 5lulu.com满足

参数的区间估计,by 5lulu.com

则称随机区间的置信度为的单侧置信区间,称为的置信度为参数的区间估计,by 5lulu.com的置信下限。

又若统计量参数的区间估计,by 5lulu.com满足

参数的区间估计,by 5lulu.com

则称随机区间置信度为的单侧置信区间,称为的置信度为参数的区间估计,by 5lulu.com的置信上限。

2 原理公式和法则

求未知参数参数的区间估计,by 5lulu.com的置信区间的一般方法:

1° 对于给定的样本参数的区间估计,by 5lulu.com,构造一个样本的函数

参数的区间估计,by 5lulu.com

它包含待估参数,而不含其它未知参数,并且的分布已知,在参数的区间估计,by 5lulu.com的分布中不依赖任何未知参数;

2° 对于给定的置信,定出两个常数(一般地,按所服从的分布上的参数的区间估计,by 5lulu.com分位点来确定),使

参数的区间估计,by 5lulu.com

3° 得到等价的不等式,其中都是统计量,于是得到的一个置信度为的置信区间为参数的区间估计,by 5lulu.com

3 重点、难点分析

本节的重点是理解区间估计的概念。

先看未知参数点估计和区间估计有何异同?

未知参数点估计就是将样本观察值代入估计量中,得到一个数值,作为真值的近似值。尽管点估计值随样本观察值的不同而异,但它能给人们一个具体的数值,因而在实际中常常使用点估计对客观事物作出某种推断。但作为一个近似值,它与真值间总有偏差,其偏差范围不知道。也就是说,这种推断的精确度如何?可靠性有多大?点估计本身并没有告诉我们,这正是点估计的不足之处。在实际中,人们希望对的取值估计出一个范围,并希望知道这个范围包含参数参数的区间估计,by 5lulu.com真值的可靠性程度,这样的范围通常用区间的形式给出,这种形式的估计弥补了点估计的不足。

故点估计区间估计都用样本的统计量对未知参数的值进行估计。不同的是点估计得到的是未知参数物近似值,而区间估计得到的是以一定概率包含未知参数真值的范围。

再讨论置信区间中提到的概率

首先与一般概率的含义有所不同。后者区间为确定一个数值区间,为随机变量,它表示的取值落在区间内的概率为。而式中的区间是随机区间,是客观存在的一个未知常数值,它的含义是随机区间包含未知常数的概率是参数的区间估计,by 5lulu.com

另一方面,我们还希望估计的精确度高。

区间估计就是寻找种种方法,以构造出具有较高的可靠性和精确度的敬意,但是,当样本容易固定不变时,置信区间的可靠性越高(即越大),区间估计的精确度就越差,(即区间长度就越长),所以,在固定时,置信区间的可靠性和精确度是相互制约的,不可能同时将两者提高到任意的高度,从置信区间的结构可以看出。增大样本容量,可缩短置信区间的长度。求置信区间,实际上是在保证可靠性达到指定水平,犯错误的概率控制在参数的区间估计,by 5lulu.com这内的前提下,尽可能地提高精确度。

4 什么是区间估计

区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。

用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。从人们的主观愿望上看,总是希望花较少的钱取得较好的效果,也就是说希望调查费用和调查误差越小越好。但是,在其他条件不变的情况下,缩小抽样误差就意味着增加调查费用,它们是一对矛盾。因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定允许的误差范围。

区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。

抽样误差范围决定抽样估计的准确性,概率保证程度决定抽样估计的可靠性,二者密切联系,但同时又是一对矛盾,所以,对估计的精确度和可靠性的要求应慎重考虑。

5 区间估计的方法

在实际抽样调查中,区间估计根据给定的条件不同,有两种估计方法:①给定极限误差,要求对总体指标做出区间估计;②给定概率保证程度,要求对总体指标做出区间估计。

例1:某企业对某批电子元件进行检验,随机抽取100只,测得平均耐用时间为1000小时,标准差为50小时,合格率为94%,求:

(1)以耐用时间的允许误差范围Δx=10小时,估计该批产品平均耐用时间的区间及其概率保证程度。

(2)以合格率估计的误差范围不超过2.45%,估计该批产品合格率的区间及其概率保证程度。

(3)试以95%的概率保证程度,对该批产品的平均耐用时间做出区间估计。

(4)试以95%的概率保证程度,对该批产品的合格率做出区间估计。

求(1)的计算步骤:

①求样本指标:参数的区间估计,by 5lulu.com=1000(小时) σ = 50(小时)

参数的区间估计,by 5lulu.com(小时)

②根据给定的Δx=10小时,计算总体平均数的上、下限:

下限参数的区间估计,by 5lulu.com(小时)

上限参数的区间估计,by 5lulu.com(小时)

③根据t=Δx/μx=10/5=2,查概率表得F(t)=95.45% 由以上计算结果,估计该批产品的平均耐用时间在990~1010小时之间,有95.45%的概率保证程度。

求(2)的计算步骤:

①求样本指标:

p=94% 参数的区间估计,by 5lulu.com

②根据给定的Δp=2.45%,求总体合格率的上、下限:

下限 上限参数的区间估计,by 5lulu.com

③根据t=Δp /μp=2.45%/2.38%=1.03,查概率表得F(t)=69.70%

由以上计算结果,估计该批产品的合格率在91.55%~96.45%之间,有69.70%的概率保证程度。

解:求(3)的计算步骤:

①求样本指标:

(小时) σ = 50(小时)参数的区间估计,by 5lulu.com(小时)


②根据给定的F(t)=95%,查概率表得t=1.96。

③根据Δx=t×μx=1.96×5=9.8,计算总体平均耐用时间的上、下限:

下限(小时)上限参数的区间估计,by 5lulu.com

所以,以95%的概率保证程度估计该批产品的平均耐用时间在990.2~1009.8小时之间。

求(4)的计算步骤:

①求样本指标:

p=94% 参数的区间估计,by 5lulu.com

②下限p-Δp=94%-4.6%=89.4%

上限p+Δp=94%+4.6%=98.6%。

所以,以95%的概率保证程度估计该批产品的合格率在89.4%~98.6%之间。

(一)当σ2已知时,求μ的置信区间

例2:某种零件的长度服从正态分布,从该批产品中随机抽取9件,测得它们的平均长度为21.4毫米,已知总体标准差为σ = 0.15毫米,试建立该种零件平均长度的置信区间,假定给定置信水平为0.95。

解:已知X~N(μ,0.152),参数的区间估计,by 5lulu.com,n=9,1-α=0.95,因为

参数的区间估计,by 5lulu.com~N(0,1)

所以对于给定的置信水平0.95,有参数的区间估计,by 5lulu.com

当α=0.05时,Uα/2=1.96,于是有参数的区间估计,by 5lulu.com

即总体均值的置信区间为[21.302,21.498]。

我们有95%的概率保证该种零件的平均长度在21.302毫米和21.498毫米之间。

例3:某保险公司自投保人中随机抽取36人,计算出此36人的平均年龄 =39.5岁,已知投保人年龄分布近似正态分布,标准差为7.2岁,试求所有投保人平均年龄的置信区间(1-α=99%)。

解:已知,X~N(μ,7.22),参数的区间估计,by 5lulu.com岁,n=36,1-α=0.99,则

当α=0.01,有Uα / 2 = U0.01 / 2 = U0.005 = 2.575,所以参数的区间估计,by 5lulu.com ,即总体的置信区间为[36.41,42.59]。有99%的把握保证投保人的平均年龄在36~42岁之间。

(二)当 2未知时,求μ的置信区间

不知道总体方差时,一个很自然的想法是用样本方差来代替,这时,需要考虑的问题是,用样本方差代替总体方差后,统计量 服从的是什么分布,以下定理给出了统计量T的分布形式。 定理 设参数的区间估计,by 5lulu.com(n≥2)是来自总体N(μ,σ2)的一个样本,则

参数的区间估计,by 5lulu.com~t(n-1)

t分布具有如下特性:

1、t分布与标准正态分布相似,是以x=0为对称轴的钟形对称分布,取值范围是(-∞,+∞),但是t分布的方差大于1,比标准正态分布的方差大,所以从分布曲线看,t分布的曲线较标准正态分布平缓。

2、t分布的密度函数为

参数的区间估计,by 5lulu.com

t分布的密度函数中只有一个参数,称为自由度。如果随机变量X具有以上形式的分布密度,则称X服从自由度为n的t分布,记为X~t(n)。随着自由度的增大,t分布的变异程度逐渐减小,其方差逐渐接近1,当n→∞时,t分布成为正态分布。

3、随机变量X落在某一区域内的概率,等于t分布曲线下,相应区域的面积,对于不同的n,同样的区域下的概率不同。如n=10,X落入[-1.372,+1.372]区间的概率为0.9,而当n=20时,概率为0.9所对应的区间为[-1.325,+1.325];当n=30时,概率为0.9所对应的区间为[-1.31,+1.31]。

关于t分布的特性就讨论到此,现在回到如何应用t分布求解置信区间的问题,既然定理已经证明了统计量服从n-1个自由度的t分布,则对于给定的显著性水平α,不难找出tα / 2(n − 1),使得参数的区间估计,by 5lulu.com。于是得到以1-α置信水平保证的置信区间

参数的区间估计,by 5lulu.com

例4:某研究机构进行了一项调查来估计吸烟者一月花在抽烟上的平均支出,假定吸烟者买烟的月支出近似服从正态分布。该机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元,试以95%的把握估计全部吸烟者月均烟钱支出的置信区间。

解:已知参数的区间估计,by 5lulu.com=80,S=20,n=26,1-α=0.95

由于不知道总体方差,所以用样本方差代替。因为

根据α=0.05,查阅t分布表得,t0.05 / 2(25)=2.06。

所以有参数的区间估计,by 5lulu.com={80-2.06(3.92)<μ<80+2.06(3.92)}=0.95,即总体的置信区间为[71.92,88.08]。

有95%的把握认为吸烟者月均烟钱支出在71.92元到88.08元之间。

(三)单个非正态总体或总体分布未知,求U的置信区间

当总体为非正态分布,或不知总体的分布形式时,只要知道总体方差,则根据Lindeberg-Levy的中心极限定理,当n很大时,统计量参数的区间估计,by 5lulu.com就近似服从标准正态分布,经验上,n>30就可以认为是大样本了。

例5:设某金融机构共有8042张应收账款单,根据过去记录,所有应收账款的标准差为3033.4元。现随机抽查了250张应收款单,得平均应收款为3319元,求98%置信水平的平均应收款。

解:已知参数的区间估计,by 5lulu.com=3319元,n=250>30,1-α=0.98,解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): \sigma =3033.4

因为参数的区间估计,by 5lulu.com近似服从标准正态分布,Uα / 2 = U0.02 / 2 = 2.33,则总体均值的置信区间为

参数的区间估计,by 5lulu.com =[3319-2.33(3033.4/\sqrt{250}),3319+2.33(3033.4/\sqrt{250})=[2871.99,3766]

根据调查结果,我们有98%的把握认为全部账单的平均金额至少为2871.99元,至多为3766元。

以上例题虽然不知总体分布形式,但总体的方差是已知的,而在实际中往往并不知道总体的方差,在实际应用中,只要是大样本,则仍然可以用样本方差代替统计量η中的总体方差,并以标准正态分布近似作为统计量η的抽样分布。

例6:某地区抽查了400户农民家庭的人均化纤布的消费量,得到平均值为3.3米,标准差为0.9米,试以95%的置信水平估计该地区农民家庭人均化纤布的消费量。

解:因为n=400是大样本,则有

参数的区间估计,by 5lulu.com

P{3.3-1.96(0.049)<μ<3.3+1.96(0.049)}=P{3.204<μ<3.396}=0.95

置们区间为[3.204,3.396]。

所以,有95%的把握认为该地区农民化纤布的消费量在3.204米至3.396米之间。


我来评分 :6
0

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议