数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

统计学入门:残差分析

[复制链接]
发表于 2024-11-20 19:44 | 显示全部楼层 |阅读模式
统计学入门:残差分析

原创 黄宝荣 语言科学漫谈 2024 年 10 月 12 日 10:57 上海

01  引言

残差分析是评估统计模型有效性的关键步骤,主要用于评估模型的拟合程度。通过分析模型预测值与实际观测值之间的差异(残差),可以判断模型是否合理。下面我们具体了解下残差分析。

02  残差(residual)的定义

残差是指在统计建模中,实际观测值与模型预测值之间的差异。

残差可以用以下公式计算:

   残差 = 实际值 - 预测值 。

举例来说,假设我们有一个简单的线性回归模型,用来预测学生的考试成绩。实际观察到的成绩和模型预测的成绩如下:

学生 A :实际成绩 85,预测成绩 80 → 残差 = 85 - 80 = 5

学生 B :实际成绩 90,预测成绩 95 → 残差 = 90 - 95 = -5

学生 C :实际成绩 78,预测成绩 75 → 残差 = 78 - 75 = 3

在这个例子中,学生 A 和 C 的残差为正,表示模型低估了他们的成绩,而学生 B 的残差为负,表示模型高估了其成绩。

在残差分析中,需要注意的问题是系统性偏差。系统性偏差是指残差在某个特定范围或条件下,表现出一致的偏差,意味着模型在这些情况下普遍低估/或高估了实际值。换句话说,当观察残差时,残差不是随机分布,而是偏向某个方向(例如,持续为正值)。

举个例子,假设我们在预测某些学生的考试成绩时,发现以下残差模式:

在低分段(如 60~70 分)时,残差为正(如 +5 , +7 , +10 )。

在高分段(如 90~100 分)时,残差为负(如 -3 , -5 , -8 )。

这种情况表明,模型在低分段上表现出系统性的低估,而在高分段上表现出系统性的高估。

系统性偏差提示我们需要改进模型,例如通过引入更多的特征、考虑非线性关系或使用其他更合适的模型形式。

下面我们来看下多元线性回归模型的情况。

假设我们有一个预测房价的模型,使用了两个特征:房屋面积(X1)和房龄(X2)。模型形式为:

房价 = β0 + β1×面积 X1 + β2×房龄 X2 + ε

其中,ε 是残差项,表示模型未能解释的部分。

数据样例如下:



经过拟合,我们的模型预测出了以下房价:

对于 100 平米、5 年房龄,预测房价 = 190 万元 → 残差 = 200 - 190 = 10 万元

对于 150 平米、10 年房龄,预测房价 = 240 万元 → 残差 = 250 - 240 = 10 万元

对于 120 平米、2 年房龄,预测房价 = 210 万元 → 残差 = 220 - 210 = 10 万元

在这个例子中,所有的残差都是正值,表明模型在所有观测值上都有一定的低估。这些残差项(ε)说明存在潜在因素,可能是因为遗漏了其他重要的特征或模型不够复杂。

03  残差分析的步骤

残差分析一般包括下列步骤:

1. 计算残差:

计算每个观测值的残差,公式为:

          残差 = 实际值 - 预测值 。


图 1 残差计算

2. 绘制残差图:

创建残差与预测值的散点图,查看残差的分布情况。

如下图所示,如果残差位于 x 轴的两侧,且没有明显的模式,则说明没有系统性偏差。


图 2 残差图

3. 检查残差的正态性:

使用 Q-Q 图或直方图检查残差是否近似符合正态分布。

Q-Q 图,全称 Quantile-Quantile 图,是统计学中用于比较两个概率分布的图形工具。它通过将两个分布的分位数进行比较,来评估它们是否相似。在 Q-Q 图中,如果两个分布相似,那么图中的点将近似地落在一条直线上,这条直线通常被称为参考线或拟合线。如果点紧密地围绕这条直线分布,那么可以认为样本数据遵循与参考分布相同或相似的分布。Q-Q 图的一个常见用途是检验数据是否近似于正态分布。Q-Q 图上的点如果近似地落在一条直线上,那么可以认为数据近似正态分布。如果 Q-Q 图的点在中间部分近似成直线,但在两端偏离,这可能表明数据的分布具有不同的偏度或峰度特征。


图 3 正常的图


图 4 右偏的数据图


图 5 直方图

4. 检测异方差性:

观察残差的方差是否随预测值的变化而变化,即它们的变异性在不同水平的预测值上是否恒定。如果残差的方差随着预测值的增加而增加,这种现象被称为异方差性,可能需要对模型进行调整。通常使用 Breusch-Pagan 检验等方法来判断。

Breusch-Pagan 检验是一种用于检测回归模型中是否存在异方差的统计检验。异方差性(Heteroscedasticity)指的是模型的误差项在不同水平的自变量上具有不恒定的方差,这违反了普通最小二乘法(OLS)的经典假设之一——同方差性(Homoscedasticity),即误差项具有恒定的方差。

Breusch-Pagan检验使用了两个假设:

零假设 (H0):模型中存在同方差性,即残差以等方差分布。

备择假设 (HA):模型中存在异方差性,即残差不以等方差分布。

5. 识别模式和趋势:

检查残差图中是否存在明显的模式,如弯曲现象,这可能表明模型需要改进。


图 6 弯曲的残差(模型拟合不佳)


图 7 绝对值逐渐增大的残差(模型拟合不佳)


图 8 逐渐增大的残差(模型拟合不佳)

6. 进行模型诊断:

根据残差分析结果,判断模型是否有问题,找出改进方向。

7. 调整模型:

根据分析结果,考虑添加新变量、变换现有变量或使用更复杂的模型。

8. 重复上述过程:

在调整模型后,重新进行残差分析,确保改进是有效的。

03  常见问题

残差分析中的常见问题包括:

● 非随机分布

举个例子,假设我们在预测房价时,发现残差图呈现出一个弯曲的形状。这表明模型可能没有捕捉到房价与某些非线性因素之间的关系,如房屋面积与房价之间的非线性关系。此时,可能需要使用多项式回归或其他非线性模型。

● 异方差性

如果残差的分布在预测值较高时显著更大,可能意味着在某些情况下模型的预测误差较大。比如,在低价房屋中,残差相对较小,而在高价房屋中,残差变得不稳定。Breusch-Pagan 检验可以用来检测异方差性。

● 非正态分布

如果残差的直方图显示出明显的偏态(例如右偏),则说明残差不符合正态分布假设。这可能会影响模型参数的估计和检验。在这种情况下,可以考虑对目标变量进行变换以改善正态性。

● 异常值

如果在残差分析中发现某些观测值的残差异常高(例如,某个房屋的实际价格远高于预测值),这可能是由于数据错误或特殊情况造成的。需要调查这些异常值,并考虑是否应将其排除或单独处理。

● 多重共线性

假设我们使用多个自变量(如房屋面积、卧室数量和浴室数量)来预测房价。如果这些自变量之间存在高度相关性,残差可能会显示出不稳定的特征,影响模型的解释能力。可以使用方差膨胀因子(VIF)检测并考虑去除某些变量。

● 遗漏变量

如果在预测某一现象时遗漏了关键变量,例如在预测房价时没有考虑房屋的位置,这会导致残差出现系统性偏差。此时需要考虑将遗漏的变量添加到模型中。

● 模型问题

如果我们用线性回归模型来拟合一个显著非线性的关系,残差将表现出显著的模式或趋势,显示模型的不足。此时,可以考虑采用更复杂的模型(如神经网络)。

04  小结

残差分析是统计学中一个重要的概念,它涉及对模型拟合质量的评估。通过残差分析,我们可以了解模型是否能够很好地捕捉数据中的变异性,以及是否存在任何系统性的错误。后续我们将介绍更多的统计学知识,敬请关注。

参考文献

Bobbitt, Z. (2023, February 17). What is Considered a Good vs. Bad Residual Plot? Statology. https://www.statology.org/good-vs-bad-residual-plot/

Writer, S. How To Create A Residual Plot By Hand. Retrieved October 11, 2024, from https://scales.arabpsychology.co ... idual-plot-by-hand/

Sacco, A. O. and D. Chapter 8 Checking for the basic assumptions | Experimental methods in agriculture. Retrieved October 11, 2024, from https://www.statforbiology.com/_ ... ic-assumptions.html

语言科学漫谈

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-11-22 02:35 , Processed in 0.103516 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表