数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 2447|回复: 3

先生们,统计学的历史已被改写。

[复制链接]
发表于 2020-10-13 01:39 | 显示全部楼层 |阅读模式
本帖最后由 Ysu2008 于 2020-10-14 00:01 编辑

9月份以来一直在研究安德森-达临检验(Andson-Daring test,以下简称 AD),因为我想把 AD test 实现在我的网站上。

AD 检验是一种分布拟合检验,是上世纪七八十年代,美国统计学家利用计算机的成果。那会儿基于经验分布函数(Empirical distribution function)的推断统计似乎非常流行。

我重新做了一遍美国统计学家在上世纪七八十年代的实验,重新给出了他们曾经给出的分布函数表。虽然已不值钱,但是不是很用功?


AD 检验属于通用型分布拟合检验,可以检验任何已知的分布,并且它是目前为止、正态性检验之外、功效(Power)最好的检验。

然而这个纪录终止于2020年10月11日,因为我在这天发现了一个更好的检验。

本来,我只是想构造一个超过AD检验的检验。始料未及的是,在正态性检验上居然超过了 Shapiro-Wilk。 Shapiro-Wilk是公认最好的正态性检验(国内统计书一般叫做W检验)。

以下为测试对比记录(显著性水平均为 0.05,n 为样本量):

KS 为 Kolmogorov-Smirnov test
AD 为 Andson-Daring test
SW 为 Shapiro-Wilk test(扩展版,非原始版)
Ysu 为我构造的新检验

测试一:正态性检验功效对比

1、总体为正态分布 Normal(6,100),不应该被拒绝时,拒绝率都没有显著偏离 0.05 .
n          KS                AD                SW                Ysu
12        0.0478        0.0498        0.0476        0.0476
15        0.0502        0.0503        0.0500        0.0494
20        0.0485        0.0477        0.0492        0.0487
25        0.0464        0.0480        0.0458        0.0510
30        0.0517        0.0486        0.0496        0.0487
35        0.0538        0.0536        0.0506        0.0491
40        0.0489        0.0470        0.0478        0.0464
45        0.0513        0.0499        0.0503        0.0507
50        0.0478        0.0552        0.0510        0.0507

以下,Ysu检验的Power都是最高。

2、总体为指数分布 Exp(1)
n          KS                AD                SW                Ysu
12        0.3587        0.4983        0.5346        0.6597
15        0.4469        0.6283        0.6806        0.7870
20        0.5831        0.7766        0.8350        0.9020
25        0.6967        0.8743        0.9257        0.9591
30        0.7838        0.9327        0.9671        0.9830
35        0.8551        0.9703        0.9882        0.9930
40        0.9060        0.9841        0.9957        0.9990
45        0.9398        0.9932        0.9989        0.9992
50        0.9625        0.9972        0.9996        0.9999

3、总体为Gamma(2,2)
n          KS                AD                SW                Ysu
12        0.2078        0.2730        0.2949        0.4030
15        0.2435        0.3465        0.3869        0.5009
20        0.3255        0.4701        0.5316        0.6438
25        0.3957        0.5715        0.6509        0.7517
30        0.4713        0.6624        0.7505        0.8312
35        0.5351        0.7440        0.8257        0.8915
40        0.6030        0.8125        0.8895        0.9303
45        0.6509        0.8531        0.9264        0.9577
50        0.6942        0.8938        0.9493        0.9718

4、总体为Gamma(3,2)
n          KS                AD                SW                Ysu
12        0.1518        0.1986        0.2084        0.2978
15        0.1803        0.2479        0.2723        0.3705
20        0.2313        0.3210        0.3721        0.4714
25        0.2818        0.4062        0.4770        0.5726
30        0.3243        0.4786        0.5612        0.6617
35        0.3798        0.5470        0.6392        0.7333
40        0.4373        0.6166        0.7191        0.7990
45        0.4664        0.6695        0.7745        0.8496
50        0.5078        0.7181        0.8224        0.8819

5、总体为Weibull(1,2)
n          KS                AD                SW                Ysu
12        0.3566        0.5000        0.5344        0.6668
15        0.4544        0.6241        0.6814        0.7844
20        0.5768        0.7731        0.8338        0.9007
25        0.6971        0.8771        0.9256        0.9596
30        0.7717        0.9300        0.9647        0.9825
35        0.8561        0.9673        0.9874        0.9943
40        0.8960        0.9840        0.9946        0.9977
45        0.9392        0.9935        0.9988        0.9993
50        0.9640        0.9967        0.9995        0.9999

6、总体为LogNormal(1,1)
n          KS                AD                SW                Ysu
12        0.5496        0.6843        0.7125        0.8003
15        0.6618        0.7954        0.8276        0.8903
20        0.8001        0.9064        0.9309        0.9620
25        0.8795        0.9612        0.9741        0.9882
30        0.9340        0.9847        0.9921        0.9953
35        0.9667        0.9951        0.9975        0.9989
40        0.9793        0.9976        0.9995        0.9996
45        0.9893        0.9988        0.9995        1.0000
50        0.9960        1.0000        1.0000        1.0000

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2020-10-13 01:45 | 显示全部楼层
本帖最后由 Ysu2008 于 2020-10-13 01:49 编辑

测试二、指数分布检验功效对比

总体为指数分布 Exp(1),不应该被拒绝,拒绝率都没有显著偏离 0.05
n          KS                AD                Ysu
12        0.0474        0.0480        0.0475
15        0.0485        0.0500        0.0456
20        0.0454        0.0508        0.0511
25        0.0505        0.0497        0.0476
30        0.0498        0.0494        0.0493
35        0.0510        0.0531        0.0549
40        0.0476        0.0476        0.0500
45        0.0484        0.0484        0.0484
50        0.0530        0.0513        0.0491

以下,Ysu检验的Power都是最高。


总体为Gamma(2,2)
n          KS                AD                Ysu
12        0.2462        0.2348        0.4364
15        0.2986        0.3125        0.5292
20        0.4018        0.4438        0.6685
25        0.4995        0.5716        0.7672
30        0.5885        0.6799        0.8428
35        0.6653        0.7613        0.8927
40        0.7247        0.8337        0.9316
45        0.7809        0.8771        0.9544
50        0.8330        0.9182        0.9686

总体为Gamma(3,2)
n          KS                AD                Ysu
12        0.5534        0.5771        0.8112
15        0.6605        0.7233        0.8981
20        0.8119        0.8823        0.9682
25        0.9054        0.9551        0.9906
30        0.9545        0.9860        0.9973
35        0.9806        0.9973        0.9992
40        0.9915        0.9990        0.9999
45        0.9971        0.9998        0.9999
50        0.9989        0.9999        0.9999

总体为Weibull(2,1)
n          KS                AD                Ysu
12        0.5999        0.6551        0.8145
15        0.7244        0.7998        0.8885
20        0.8476        0.9194        0.9531
25        0.9241        0.9705        0.9773
30        0.9683        0.9945        0.9892
35        0.9837        0.9972        0.9955
40        0.9935        0.9991        0.9969
45        0.9974        0.9999        0.9977
50        0.9995        1.0000        0.9991

总体为LogNormal(1,1)
n          KS                AD                Ysu
12        0.1057        0.0922        0.1380
15        0.1248        0.1194        0.1728
20        0.1432        0.1440        0.2270
25        0.1568        0.1683        0.2832
30        0.1803        0.2011        0.3645
35        0.1961        0.2282        0.4091
40        0.2188        0.2731        0.4952
45        0.2249        0.2960        0.5507
50        0.2556        0.3411        0.6152
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2020-10-14 17:53 | 显示全部楼层
本帖最后由 Ysu2008 于 2020-10-15 14:00 编辑

测试三,混合正态分布样本的正态性测试。

样本量30,15个来自 Normal(1 , 1),另外15个来自 Normal(5 , 1),测试一万次的拒绝率:

AD---------SW---------Ysu
0.6631        0.5934        0.6675       
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-14 18:06 | 显示全部楼层
本帖最后由 Ysu2008 于 2020-10-15 14:01 编辑

测试四,离群值样本的正态性测试。

样本量30,29个来自 Normal(0 , 1),1个来自 Normal(0 , 4),测试一万次拒绝率对比:

AD---------SW---------Ysu
0.2873        0.3536        0.1421       

目前发现唯一比不过 SW 的项目。

对离群值不敏感,其实既是缺点也是优点。
真实世界中的样本都带有噪音,对离群值太敏感,实际拒真率是偏高的。
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-4-23 17:09 , Processed in 0.076172 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表