学生t-分布

  • 更新时间: 2018-01-17
  • 来源: 原创或网络
  • 浏览数: 49次
  • 字数: 23468
  • 发表评论

在概率论和统计学中,学生t-分布(Student's t-distribution),可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定(Z-test),因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。

在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时,因为误差无法压低,此时可以用变异数分析(ANOVA)代替学生t检定。

t分布的推导最早由大地测量学家Friedrich Robert Helmert于1876年提出,并由数学家Lüroth证明。

英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检定以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)的发扬光大,为了感谢戈塞特的功劳,费雪将此分布命名为学生t分布(Student's t)。

1 描述

假设X是呈正态分布的独立的随机变量(随机变量的期望值是μ,方差是σ2但未知)。 令:学生t-分布,by 5lulu.com

样本均值

学生t-分布,by 5lulu.com

样本方差

它显示了数量

学生t-分布,by 5lulu.com

呈正态分布并且均值和方差分别为0和1。

另一个相关数量

学生t-分布,by 5lulu.com

T的概率密度函数是:

学生t-分布,by 5lulu.com

ν等于n − 1。 T的分布称为t-分布。参数ν一般被称为自由度。

Γ是伽玛函数。 如果ν是偶数,

学生t-分布,by 5lulu.com

如果ν是奇数,

学生t-分布,by 5lulu.com

T的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度ν{\displaystyle \nu }的增加,则越来越接近均值为0方差为1的正态分布。

t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线).

前幅图用绿色曲线表示.

学生t-分布,by 5lulu.com

1 degree of freedom


学生t-分布,by 5lulu.com

2 degrees of freedom


学生t-分布,by 5lulu.com

3 degrees of freedom

学生t-分布,by 5lulu.com

5 degrees of freedom

学生t-分布,by 5lulu.com

10 degrees of freedom

学生t-分布,by 5lulu.com

30 degrees of freedom

T分布的概率累计函数,用不完全贝塔函数I表示:

学生t-分布,by 5lulu.com

其中

学生t-分布,by 5lulu.com


T分布的矩为:

学生t-分布,by 5lulu.com

2 学生t-分布置信区间的推导

假设数量A在当Tt-分布(T的自由度为n − 1)满足

学生t-分布,by 5lulu.com

这与学生t-分布,by 5lulu.com 是相同的

A是这个概率分布的第95个百分点

那么

学生t-分布,by 5lulu.com

等价于

学生t-分布,by 5lulu.com

因此μ的90%置信区间为:学生t-分布,by 5lulu.com

3 计算

现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).

下表列出了自由度为νt-分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度ν=4,我们就可以查找表中以4开头的行。该行第5列值为2.132,对应的单侧值为95%(双侧值为90%)。这也就是说,T小于2.132的概率为95%(即单侧),记为Pr(−∞ < T < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的概率为90%(即双侧),记为Pr(−2.132 < T < 2.132) = 0.9。

这是根据分布的对称性计算得到的,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此,

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意关于表格的最后一行的值:自由度为无限大的t-分布和正态分布等价。

单侧 75% 80% 85% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
双侧 50% 60% 70% 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
1 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 127.3 318.3 636.6
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.09 22.33 31.60
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.21 12.92
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

4 范例

给定一个样本:样本均值和方差分别为10和2,样本大小为11(自由度为10)。根据公式:

学生t-分布,by 5lulu.com

可知,使用该方法统计出来的最大值,平均有90%的概率(即90%置信度/信心水准/confidence level)低于:

学生t-分布,by 5lulu.com

同理,使用该方法统计出来的最小值,平均有90%的概率(即90%置信度/信心水准/confidence level)高于:

学生t-分布,by 5lulu.com

因此,使用该方法统计出来的最大值和最小值,平均有80%的概率介于:

学生t-分布,by 5lulu.com

两值之间。注意,这并不是说,数据的真正均值介于这两个值之间的概率为80%。详情请参考置信区间。

我来评分 :6
1

转载注明:转自5lulu技术库

本站遵循:署名-非商业性使用-禁止演绎 3.0 共享协议