数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1098|回复: 0

统计学漫谈:高尔顿的遗传理论

[复制链接]
发表于 2024-6-23 11:25 | 显示全部楼层 |阅读模式
统计学漫谈:高尔顿的遗传理论

原创 尚大海 尚万只老虎 2024-05-24 11:36 广东


弗朗西斯·高尔顿(Francis Galton ,1822 年 2 月 16 日 — 1911 年 1 月 17 日)

弗朗西斯·高尔顿生于 1822 年,是一个涉猎广泛、建树众多的人物。他的头衔从英国维多利亚时代的统计学家、几何学家、心理学家、优生学家到热带探险家、地理学家、发明家、气象学家、遗传学家,真是数不胜数。他还于 1909 年被封为骑士。

高尔顿是达尔文(Charles Robert Darwin ,1809—1882)的表亲。他对正态分布和标准方差下的变异系数十分感兴趣。他发明了一种装置——高尔顿板(也叫豆机),由垂直木板及其上纵横交错的钉子组成的行和列构成,用来演示棣莫弗-拉普拉斯中心极限定理(de Moivre-Laplace Central Limit Theorem),这是概率论历史上的第一个中心极限定理,简单地说就是:当样本数足够多时,二项分布近似于正态分布。


高尔顿板(豆机)

当豆子从模型的顶部掉落,它们在击中钉子的瞬间向左或向右弹跳,经历 n 层钉子的碰撞后,最终下落到底部的箱子中。因此,每一粒豆子的掉落过程都可看作一个 n 重伯努利试验,服从二项分布。大量的豆子掉落下来(样本数足够多)时,它们在箱子中的高度就近似于正态分布的钟形曲线。这就是“二项分布的正态近似”


用豆机验证中心极限定理

值得说明的是,中心极限定理不是一个定理,而是一系列定理,用来研究随机变量和的极限分布在什么条件下为正态分布的问题。豆机所演示的是这一族定理当中最简单的一个,即二项分布下的中心极限定理。如果我们把限制条件放宽,还可以得到更一般化的结论。

比如,假设随机变量是独立同分布的(不一定是二项分布)而且方差存在,那么足够多的变量的和的分布就近似于正态分布(统计学家一般会先对和进行标准化处理,即减去均值再除以标准差,则标准化和的分布收敛于标准正态分布)。这就是独立同分布下的中心极限定理,也叫林德伯格-莱维(Linderberg-Lévy)中心极限定理,由芬兰人亚尔·瓦尔德马·林德伯格(Jarl Waldemar Lindeberg ,1876-1932)和法国人保罗·皮埃尔·莱维(Paul Pierre Lévy ,1886-1971)于 20 世纪 30 年代提出,他们分别发现了中心极限定理成立的一组相互重叠的条件,使得 18 世纪末由棣莫弗和拉普拉斯所猜想的“中心极限定理”,在历经 150 多年的悬置之后终于得到了证明。



统计学家们可以长舒一口气了!有了中心极限定理,他们可以理直气壮地默认所有数据服从正态分布,由于正态分布有一些非常好的特性(比如正态分布变量的加减组合也服从正态分布),而且有很多成熟的工具可以使用,这样处理数据就会更加方便。

进一步地,如果我们允许随机变量有不同分布,且都满足林德伯格条件,即各项在概率意义下“均匀地小”,没有任一项对和有突出的贡献,那么它们的和的分布近似为正态分布(即标准化和的极限分布为标准正态分布)。这就是独立不同分布下的中心极限定理,也叫林德伯格中心极限定理。前面的中心极限定理都是该定理的特例。

林德伯格条件虽然比较一般,但难以验证。李雅普诺夫(Lyapunov)给出了一个更容易检验的(充分而不必要)条件,只需对(moment)进行计算即可判断是否满足条件,以便于应用,这就是李雅普诺夫中心极限定理,它是林德伯格中心极限定理的一个强化版本(推论)。


亚历山大·米哈伊洛维奇·李雅普诺夫(Aleksandr Mikhailovich Lyapunov ,1857-1918)

中心极限定理(族)是概率论中最重要的基本定理之一,用途非常广泛,比如对误差的正态建模就是一例。我们知道,测量误差可以看做许多微小的扰动(即随机变量)之和,那么根据中心极限定理,不管这些随机变量服从怎样的分布,只要数量足够多,就可以用正态分布去逼近它们的和的分布。因此,测量误差近似地服从正态分布。这也是正态分布又被称为“误差分布”的原因。

中心极限定理的版本有很多种,以上只是最基础的几种,除此之外还有非独立变量和多维变量等更高级的版本,就不在这里介绍了,有兴趣的朋友可以查阅相关资料。咱们还是言归正传吧!

高尔顿是第一个将统计方法应用于研究人体差异和智力遗传的人,并介绍了如何利用问卷和调查的方式收集社区数据。这是编写家谱和传记作品以及人体测量研究所需要的。他是优生学的先驱,在 1883 年创造了“优生学”(Eugenics)这个词,也创造了“自然与养育”这个术语。他的著作《遗传的天才》是研究天才和伟大的第一次社会科学尝试。

他的表亲达尔文在 1859 年出版的《物种起源》无疑对他产生了巨大的影响。从心理特征到身高,从面部图像到指纹图案,他制订的一个研究计划涵盖人类变异的多个方面。这需要发明新的特征度量,设计使用这些测量方法和大规模收集数据,然后用创新的统计技术来描述和解释数据。

高尔顿起初对人的能力是否具有遗传性的问题很感兴趣,他提议计算不同杰出程度的男子的亲属人数。他推理说,如果这些品质具有遗传性,那么亲属中应该有更多的杰出男子,而不是一般人。为了验证这一点,他发明了一种方法,通过广泛的传记来源获得了大量数据。他通过各种方式对这些数据进行了表格化处理和比较。1869 年,他的著作《遗传的天才》详细描述了这一开创性工作。他在书中特别指出,从一级亲属到二级亲属,从二级亲属到三级亲属,杰出亲属的数量呈下降趋势。他把这作为继承能力的根据。高尔顿承认,文化环境影响了一个文明公民的能力,包括他们的优生能力。

高尔顿试图开发一个关于人口稳定性的数学模型,这导致了他的回归公式及其与双变量正态分布的联系。高尔顿第一次尝试研究达尔文问题——遗传天才,这导致他在 19 世纪 70 年代对人体特征的遗传做了进一步的研究,其中包含一些粗略的“均值回归”的概念。在定性问题的描述中,他写道:“如果用强壮和体形良好的母狗去繁殖幼崽,但使用不同品种的种狗,那么小狗有时(但很少)会与父母完全一样。它们通常为杂种,难以描述,因为其祖先的特殊性容易在后代中被裁剪掉。”这一概念给高尔顿制造了一个问题,因为他无法调和人口特征一代又一代保持正态分布的倾向与进化概念。似乎大量因素对后代独立产生影响,导致每一代人的特征呈新的正态分布。然而,这也解释了父母如何对子女产生重大影响,而子女是遗传的基础。


高尔顿绘制的父母与子女身高之间的关系图表,横轴是父母的身高中值,纵轴为子女的身高。| 图片来源:Madeleine Price Ball/Wikimedia Commons

高尔顿的进化理论建立在他对统计学的三个关键发展之上:1874 年到 1875 年对误差定律的发展,1877 年经验回归定律的制定,以及 1885 年对利用人口数据进行回归的数学框架的发展。虽然高尔顿的初衷是对基因和遗传研究感兴趣,但他意识到自己的统计学方法可以广泛地应用在其他领域并扩展了他开发出的工具的适应性。

统计学的发展目的是将小样本中的数据推广或应用到总体上。例如,研究者希望通过小样本研究总体的犯罪率、结婚率和遗传病发生率。当然,任何统计调查结果都取决于样本的质量。英国统计学家亚瑟·里昂·鲍利(Arthur Lyon Bowley ,1869–1957)是第一批在采样中使用随机方法的人之一。鲍利指导了 1912 年至 1914 年英国 5 个城镇中工人家庭的抽样调查,亲自研究了计算抽样精度的数学公式以及对抽样调查结果进行通俗解释的最佳方法。他讨论了以下四个错误来源:不正确的信息、松散的定义、样本选择的偏差以及可计算的抽样错误。他深信对预测的任何分析都取决于长时间精心编制的涵盖所有经济和社会事项的统计系列。他和同事在设计和改进指数数字以及设计最有效的显示指数的方法方面孜孜不倦。

1934 年,波兰统计学家耶日·内曼(Jerzy Neyman)把分层抽样目的选择这两种方法结合起来,以保证采集的样本在整体上涵盖各种主要的情况,而每一个单独样本的采集又是随机的。


耶日·内曼(Jerzy Neyman ,1894-1981)

这种统计采样方法的成功案例是 1936 年关于美国总统大选的预测。当时,乔治·盖洛普(George Gallup)仅通过 3000 份民意调查问卷就成功地预测到富兰克林·罗斯福会再次当选,而《文学文摘》在 1000 万份民意调查问卷的基础上做出的预期不是这样。这说明了大样本并不一定能保证结果的正确性,盖洛普民意测验成为了衡量公众與论的一种成功的统计方法。


乔治·盖洛普(George Gallup , 1901—1984) 美国研究调查抽样技术的先驱,也是盖洛普民意测验的发明人。图为 1948 年盖洛普登上时代周刊封面。

实验设计和统计工具的发展密切相关。比较控制组实验组,对控制组和实验组的个体进行随机采样,这在 20 世纪初期作为标准程序出现了。

英国基因学家和统计学家费希尔(Fisher)在第二次世界大战以后的数年里,在心理学、医药学和生态学等许多领域中重塑了实验设计。他用统计分析来整合达尔文进化论中建立在实验设计上的不一致性。他提出了一个遗传学概念模型,表明生物统计学家测量的表型性状特征之间的连续变异可以通过许多离散基因的组合作用产生。这是创建种群遗传学定量遗传学的第一步,表明自然选择可以改变种群中等位基因出现的频率,从而调和其不连续的性质并逐渐进化。他还倡导通过重复实验来观察结果的差异,从而确定误差率。作为 20 世纪统计学中最具影响力的研究,费希尔把自己的发现写进了名著 《统计方法和科学推理》之中。他最重要的贡献之一是通过对一个很不规范的样本的观察得到各种变化,这被用来评估结果是否具有统计意义。由于他在统计学方面的杰出贡献,他被描述为一个几乎单枪匹马地为现代统计学打下基础的天才和 20 世纪统计学发展中最重要的人物。


罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher ,1890—1962)

费希尔出生于英国伦敦的一个中产阶级家庭。视力不佳导致他在第一次世界大战中被英国军方拒绝,但也这发展了他用几何术语来形象化问题的能力,而不是写数学解决方案或证据的能力。他在 14 岁时进入哈罗学校学习,并获得该校的尼尔德数学奖章。1909 年,他获得了在剑桥大学学习数学的奖学金,并于 1912 年取得了数学第一名的成绩。1919 年费希尔开始在洛桑农业实验站工作,此后的十年是他最富有成效的时期,为统计学革命开辟了新的篇章。

费希尔是高尔顿“优生学”理论的忠实拥趸,而优生学由于被法西斯主义者用来支持种族灭绝政策而臭名昭著,这在一定程度上损害了高尔顿和费希尔的声誉。但是他们对统计学的开创性贡献是不容置疑的。

统计分析开辟了一个全新的领域,它让我们在无法完全了解确切原因的情况下仍然可以利用有效的信息,其中最核心的部分就来自高尔顿的原创见解。如今,统计学已经成为科学中至关重要的领域。用高尔顿的话说,每当统计被巧妙地处理并被谨慎地解读时,它处理复杂现象的能力其实十分惊人。

注:本文内容主要来自[美]魏铼《趣味数学简史》,做了一些修改和扩充,尤其是增加了对中心极限定理的介绍,供学习和参考。

尚万只老虎

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-12-21 22:39 , Processed in 0.093750 second(s), 17 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表