数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 158|回复: 0

统计学入门(16):幂律分布

[复制链接]
发表于 2024-5-4 08:04 | 显示全部楼层 |阅读模式
统计学入门(16):幂律分布

原创 黄宝荣 语言科学漫谈 2024-04-06 10:06 湖南

01  引言

幂律分布(Power law distribution)是一种在自然界和人类社会中广泛存在的统计分布模式,其特点是大量小事件和少数大事件之间存在着一种“富者越富”的不平衡关系。这种分布的主要特征是长尾,也就是说极端大的值虽然出现概率低,但远比正态分布等其他分布模式下更为常见。幂律分布通常用来描述城市人口、地震强度、互联网上的链接数、财富分配等现象。下面我们来仔细看看。

02  什么是幂律分布?

幂律分布是一种统计分布模式,其中某一变量的频率与其大小成反比,其关系可通过一个幂律函数(power-law function)来描述。



其中,λ 是幂律指数(也称为幂律系数),x 是随机变量的取值。

下图描绘了美国人口的分布情况。图中可以看出,大多数人口居住在大城市。


图 1 美国城市人口分布

幂律分布有以下三个主要特征:

1. 重尾性(Heavy-tailedness)

幂律分布的尾部衰减得非常慢。相比于正态分布或指数分布,幂律分布产生极端值的概率更高。例如,在自然界中,极端事件(如极端自然灾害)虽不常见,但碰到的概率比预想的大得多。

2. 尺度不变性(Scale invariance)

幂律分布无论在何种尺度上观察,其形状都保持不变。无论是放大还是缩小,分布的形态看起来都相同。

3. 缺乏典型尺度

由于尺度不变性,幂律分布没有明显的平均值或标准偏差。这意味着系统的行为或现象的大小不能简单地通过平均值来预测。

03  幂律分布的历史

幂律分布的历史可以追溯到 19 世纪,下面我们来看下其中的重要发展阶段。

19 世纪,意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)提出了 Pareto 分布,也称为 Pareto 原理或 80/20 规则(二八原则)。帕累托在研究意大利的财富分配时发现,大部分财富集中在少数人手中,即社会的 20% 人口拥有 80% 的财富。Pareto 分布是一种幂律分布的特例。


图 2 Vilfredo Pareto

美国数学家齐夫(George Kingsley Zipf)在研究语言学时,提出了齐夫(Zipf)定律。齐夫定律描述了词频分布的特点,在一个自然语言语料库中,任何单词的频率与它在频率表中的排名成反比。简而言之,频率最高的单词出现的频率大约是出现频率第二位的单词的 2 倍,而出现频率第二位的单词则是出现频率第四位的单词的 2 倍。


图 3 Zipf 及 Zipf 定律

数学家贝诺伊特·曼德布罗特(Benoit Mandelbrot)是分形几何学的创始人。Mandelbrot 是在经济学中最早提出市场价格变动不遵循高斯分布(也称正态分布或钟形曲线)的学者之一。通过研究棉花价格的历史数据,他发现,价格变动的极端值比正态分布的预期值要频繁得多。根据这些观察,他提出了市场变动遵循幂律分布的假设,这种分布能更好地描述和预测经济数据中的大幅波动和“野性”行为。


图 4 标普 500 指数(S&P 500)的价格波动性聚集情况。从图中可以看出,红色圆点和绿色方块往往成群出现,即大的价格变动倾向于在一段时间内聚集出现,而不是随机分布。


图 5 Benoit Mandelbrot

在生物神经系统中,研究人员发现神经元的连接模式和神经活动的强度往往遵循幂律分布。例如,某些大脑区域中神经元之间的突触连接分布可能显示出幂律特性,这表明大脑网络中存在少数高度互联的神经元节点,而大多数神经元则相对较少连接。这种分布模式有助于大脑以高效和灵活的方式处理信息,提高其对外界刺激的响应能力和适应性。

幂律分布的发现和发展,揭示了许多现象背后的普遍规律。幂律分布表明,少数事件或原因可能导致大多数结果,这对于理解和预测许多复杂系统具有重要意义。

04  二八定律

二八定律指在许多情况下,大约 20% 的原因、努力或资源导致了 80% 的结果、产出或效果。请注意,这个比例并不是绝对的 20% 和 80% ,而是指一个小比例的原因或努力通常对结果产生决定性的影响。

在日常生活中,我们可以看到各种二八定律。例如,在经济领域,一小部分人口拥有大部分财富;大约 20% 的产品或服务产生了 80% 的利润;同样,20% 的客户可能产生 80% 的总销售额。在工程领域,常说 80% 的软件错误和问题来自于 20% 的代码;同样,修复这 20% 的错误可以解决 80% 的问题。在健康领域,20% 的病因可能导致 80% 的病例。如下图所示,在医疗错误类型的帕累托图中,前四种类型占了近 80% 。


图 6 医疗错误类型的帕累托图

二八定律说明了资源分配的不平衡和集中化。在许多领域,识别和利用 20% 的关键因素可以实现高效和高产出。

不过,是否可以不管那 80% 呢?我们接着来看“长尾理论”。

05  长尾理论

长尾理论(Long Tail Theory)由美国作家克里斯·安德森(Chris Anderson)提出。在一系列与长尾有关的文章及书籍《长尾理论:为什么商业的未来是小众市场(The Long Tail: Why the Future of Business is Selling Less of More)》中,他描述了数字经济环境下商品和服务分布的新模式。


图 7 Chris Anderson

在传统的零售模式中,市场的主要集中在头部的热门商品,这些商品的销量和利润占据了市场的大部分。长尾理论的核心思想是,在互联网环境下,由于存储和分销成本大大降低,细分市场和小众产品的经济价值得到显著提升。长尾效应意味着那些非热门商品,即尾部商品,虽然每一项产品的销量可能较小,但由于品种繁多,它们累积起来的总销量和总利润可以与头部的热门商品相媲美,甚至超过头部商品。


图 8 长尾示意图

在电子商务、数字媒体、在线内容分发等领域中,可以观察到明显的长尾效应。例如,亚马逊(Amazon)通过提供数以百万计的图书、音乐和其他商品,成功地利用了长尾效应;Netflix 和 Spotify 等流媒体服务通过提供众多的电影、电视节目和音乐库,满足了不同消费者的多样化需求。

06  结语

幂律分布揭示了自然界和人类社会中普遍存在的不平等现象。城市规模、财富分布到社交网络中的连接数等均遵循这一分布规律。幂律分布不仅增进了我们对复杂系统内在秩序的理解,也挑战了我们对平等和随机性的看法。后续我们将介绍更多的统计学知识,敬请关注!

参考文献

Power Laws. https://www.ndsu.edu/pubweb/~novozhil/Teaching/484%20Data/9.pdf

Experience, W. L. in R.-B. U. Recognize Strategic Opportunities with Long-Tail Data. Nielsen Norman Group. Retrieved April 5, 2024, from https://www.nngroup.com/articles/long-tail/

Pareto Charts & 80-20 Rule—Clinical Excellence Commission.  Retrieved April 5, 2024, from https://www.cec.health.nsw.gov.a ... tools/pareto-charts

globalmind. (2016, April 5). Pareto Principle. Globalmindcsc. https://globalmindcsc.com/2016/04/05/pareto-principle/

Learning from Benoit Mandelbrot. (2018, February 27). Investment Masters Class. http://mastersinvest.com/newblog ... m-benoit-mandelbrot

Benoit Mandelbrot, Father of Fractals, Explains Why Volatility is Not Your Friend | Muscular Investing | StockCharts.com. Retrieved April 5, 2024, from https://stockcharts.com/articles ... ther-of-fr-944.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-5-19 07:09 , Processed in 0.075195 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表