数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 266|回复: 0

统计学入门(6)—— Z-score

[复制链接]
发表于 2024-4-2 10:01 | 显示全部楼层 |阅读模式
统计学入门(6)—— Z-score

原创 黄宝荣 语言科学漫谈 2024-02-27 18:45 上海

01 引言

Z-score 起源于 19 世纪后期,基于标准正态分布(高斯分布)理论。这一概念建立在标准差的基础上,用于衡量数据点相对于平均值的偏离程度。通过将数据点的偏离转换为标准差单位,便可以使用Z-score比较不同数据集中的数据。在人文科学的研究中,Z-score 应用广泛,下面我们来看下 Z-score 的历史及其具体的应用场景。

02 Z-score 的历史

Z-score(标准分数)的产生主要基于统计学中对数据标准化的需求,以及对数据点相对于其所在数据集平均值的偏离程度进行量化的需求。在统计分析、数据处理和研究中,经常需要比较来自不同样本或数据集的观测值。由于这些数据集可能有不同的均值(平均值)和标准差(数据分布的离散程度),直接比较原始分数可能会产生误导。通过将数据点转换为一个相对于数据集均值的标准差单位数,Z-score提供了一种标准化的比较方法,使研究人员可以公平比较不同数据集之间的观测值。

Z-score 的概念是在标准正态分布(Standard Normal Distribution)的框架内发展起来的。标准正态分布是一种特定的概率分布,其形状为对称的钟形曲线,由两个参数——均值(μ)和标准差(σ)——完全确定。在标准正态分布中,均值为 0 ,标准差为 1 。将原始数据转换为 Z-score 实际上是将其转换为一种标准形式,参照了标准正态分布,从而便于分析和解释。



Z-score 的概念与几位统计学和数学家的工作密切相关,其中包括卡尔·弗里德里希·高斯(Carl Friedrich Gauss)和卡尔·皮尔逊(Karl Pearson)。

卡尔·弗里德里希·高斯对正态分布的研究奠定了后来 Z-score 理论的基础。虽然他没有直接提出 Z-score ,但他对误差分布的研究和正态分布的形式化对后来的统计方法产生了深远影响。

卡尔·皮尔逊是现代统计学的奠基人之一,他对数据的分布、变异性的度量以及相关性的分析做出了重要贡献。虽然皮尔逊也没有直接“提出”Z-score,但他的工作为 Z-score 的发展提供了理论和方法论基础。

03 计算方法

计算 Z-score 的过程实际上是将原始数据标准化的过程,使得得到的分数反映了原始数据点距离平均值的相对位置,并以标准差为单位衡量。这种转换后的分数使不同数据集或不同测量尺度上的数据可以直接进行比较。

Z-score 的计算公式为:



其中:

Z 是 Z-score 。

X 是观察值。

μ 是数据集的均值(平均值)。

σ 是数据集的标准差。

计算方法如下:

1. 计算均值(μ):首先计算出数据集的平均值,即所有数据点的总和除以数据点的数量。

2. 计算标准差(σ):然后,计算数据集的标准差,这是衡量数据点分布离散程度的一个指标。标准差是各数据点与平均值差值的平方和的平均值的平方根。

3. 计算 Z-score :对于数据集中的每个数据点,用该点的值减去数据集的均值,然后将结果除以数据集的标准差。这个过程求出了每个数据点的 Z-score ,反映了该点以标准差为单位与数据集平均值的相对距离。

Z-score 的解读

● Z-score = 0 :如果 Z-score 为 0 ,表示观察值等于平均值。

● Z-score > 0:如果 Z-score 大于 0 ,表示观察值高于平均值。

● Z-score < 0:如果 Z-score 小于 0 ,表示观察值低于平均值。

绝对值大小:Z-score 的绝对值越大,表示观察值距离平均值越远。例如,如果 Z-score 的绝对值大于 2 ,通常认为其显著偏离平均值。

04 应用

假设两个不同学校的学生,学生 C 和学生 D 的课程成绩相同,都得了 85 分。学校 1(学生 C 所在)的平均成绩为 90 分,标准差为 10 分。学校 2(学生 D 所在)的平均成绩为 70 分,标准差为 5 分。

通过计算这两个学生的 Z-score ,我们可以比较他们的成绩在各自学校中的表现。结果显示,学生 C 的 Z-score 约为 -0.5 ,这意味着他的成绩低于其所在学校的平均成绩,差距大约是半个标准差。学生 D 的 Z-score 为 3.0 ,表明他的成绩高于其所在学校的平均成绩,差距是 3 个标准差。

虽然学生 C 和学生 D 的原始成绩相同,但通过 Z-score ,我们可以看出学生 D 的成绩在其所在学校中更为突出。相对于其学校平均成绩和标准差,学生 D 的成绩位置更高。这说明,即使原始成绩相同,Z-score 也能帮助我们更加准确地评价学生的表现。

05 与 Z-test 的关系

Z-test 是一种统计检验,用于确定两个样本均值之间的差异是否在统计学上显著,检验时假设样本分布接近正态分布,且已知总体标准差。Z-test 通过计算 Z-score 来实现,该 Z-score 表示观察到的差异与零假设下的预期差异之间的距离。

举个例子,我们可以使用 Z-test 来检验一个样本均值是否与已知的总体均值有显著差异。具体参数如下:

总体平均值(μ)= 100

总体标准差(σ)= 15

样本平均值()= 108

样本大小(n)= 30

通过计算后得知,样本的平均 Z-score 约为 2.92,对应的 p-value 约为 0.0035 ,这表明样本均值比总体平均值高,且差异在统计上显著。因为 p 值小于常用的显著性水平(0.05),我们有足够的证据拒绝零假设,认为样本均值与总体均值存在显著差异。

06 结语

本文讨论了 Z-score 的历史、计算方法及其在实际情境中的应用,并阐述了 Z-score 与 Z-test之间的关系和使用场景。无论是在学术研究、业务分析还是日常决策中,掌握 Z-score 的知识都非常重要。后续我们会介绍更多的统计学知识,敬请关注!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-5-2 22:34 , Processed in 0.059570 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表