统计学入门：残差分析

luyuanhong · 发表于 2024-11-20 19:44

统计学入门：残差分析

原创黄宝荣语言科学漫谈 2024 年 10 月 12 日 10:57 上海

01  引言

残差分析是评估统计模型有效性的关键步骤，主要用于评估模型的拟合程度。通过分析模型预测值与实际观测值之间的差异（残差），可以判断模型是否合理。下面我们具体了解下残差分析。

02  残差（residual）的定义

残差是指在统计建模中，实际观测值与模型预测值之间的差异。

残差可以用以下公式计算：

残差 = 实际值 - 预测值。

举例来说，假设我们有一个简单的线性回归模型，用来预测学生的考试成绩。实际观察到的成绩和模型预测的成绩如下：

学生 A ：实际成绩 85，预测成绩 80 → 残差 = 85 - 80 = 5

学生 B ：实际成绩 90，预测成绩 95 → 残差 = 90 - 95 = -5

学生 C ：实际成绩 78，预测成绩 75 → 残差 = 78 - 75 = 3

在这个例子中，学生 A 和 C 的残差为正，表示模型低估了他们的成绩，而学生 B 的残差为负，表示模型高估了其成绩。

在残差分析中，需要注意的问题是系统性偏差。系统性偏差是指残差在某个特定范围或条件下，表现出一致的偏差，意味着模型在这些情况下普遍低估/或高估了实际值。换句话说，当观察残差时，残差不是随机分布，而是偏向某个方向（例如，持续为正值）。

举个例子，假设我们在预测某些学生的考试成绩时，发现以下残差模式：

在低分段（如 60～70 分）时，残差为正（如 +5 , +7 , +10 ）。

在高分段（如 90～100 分）时，残差为负（如 -3 , -5 , -8 ）。

这种情况表明，模型在低分段上表现出系统性的低估，而在高分段上表现出系统性的高估。

系统性偏差提示我们需要改进模型，例如通过引入更多的特征、考虑非线性关系或使用其他更合适的模型形式。

下面我们来看下多元线性回归模型的情况。

假设我们有一个预测房价的模型，使用了两个特征：房屋面积（X1）和房龄（X2）。模型形式为：

房价 = β0 + β1×面积 X1 + β2×房龄 X2 + ε

其中，ε 是残差项，表示模型未能解释的部分。

数据样例如下：

经过拟合，我们的模型预测出了以下房价：

对于 100 平米、5 年房龄，预测房价 = 190 万元 → 残差 = 200 - 190 = 10 万元

对于 150 平米、10 年房龄，预测房价 = 240 万元 → 残差 = 250 - 240 = 10 万元

对于 120 平米、2 年房龄，预测房价 = 210 万元 → 残差 = 220 - 210 = 10 万元

在这个例子中，所有的残差都是正值，表明模型在所有观测值上都有一定的低估。这些残差项（ε）说明存在潜在因素，可能是因为遗漏了其他重要的特征或模型不够复杂。

03  残差分析的步骤

残差分析一般包括下列步骤：

1. 计算残差：

计算每个观测值的残差，公式为：

      残差 = 实际值 - 预测值。

图 1 残差计算

2. 绘制残差图：

创建残差与预测值的散点图，查看残差的分布情况。

如下图所示，如果残差位于 x 轴的两侧，且没有明显的模式，则说明没有系统性偏差。

图 2 残差图

3. 检查残差的正态性：

使用 Q-Q 图或直方图检查残差是否近似符合正态分布。

Q-Q 图，全称 Quantile-Quantile 图，是统计学中用于比较两个概率分布的图形工具。它通过将两个分布的分位数进行比较，来评估它们是否相似。在 Q-Q 图中，如果两个分布相似，那么图中的点将近似地落在一条直线上，这条直线通常被称为参考线或拟合线。如果点紧密地围绕这条直线分布，那么可以认为样本数据遵循与参考分布相同或相似的分布。Q-Q 图的一个常见用途是检验数据是否近似于正态分布。Q-Q 图上的点如果近似地落在一条直线上，那么可以认为数据近似正态分布。如果 Q-Q 图的点在中间部分近似成直线，但在两端偏离，这可能表明数据的分布具有不同的偏度或峰度特征。

图 3 正常的图

图 4 右偏的数据图

图 5 直方图

4. 检测异方差性：

观察残差的方差是否随预测值的变化而变化，即它们的变异性在不同水平的预测值上是否恒定。如果残差的方差随着预测值的增加而增加，这种现象被称为异方差性，可能需要对模型进行调整。通常使用 Breusch-Pagan 检验等方法来判断。

Breusch-Pagan 检验是一种用于检测回归模型中是否存在异方差的统计检验。异方差性（Heteroscedasticity）指的是模型的误差项在不同水平的自变量上具有不恒定的方差，这违反了普通最小二乘法（OLS）的经典假设之一——同方差性（Homoscedasticity），即误差项具有恒定的方差。

Breusch-Pagan检验使用了两个假设：

零假设 (H0)：模型中存在同方差性，即残差以等方差分布。

备择假设 (HA)：模型中存在异方差性，即残差不以等方差分布。

5. 识别模式和趋势：

检查残差图中是否存在明显的模式，如弯曲现象，这可能表明模型需要改进。

图 6 弯曲的残差（模型拟合不佳）

图 7 绝对值逐渐增大的残差（模型拟合不佳）

图 8 逐渐增大的残差（模型拟合不佳）

6. 进行模型诊断：

根据残差分析结果，判断模型是否有问题，找出改进方向。

7. 调整模型：

根据分析结果，考虑添加新变量、变换现有变量或使用更复杂的模型。

8. 重复上述过程：

在调整模型后，重新进行残差分析，确保改进是有效的。

03  常见问题

残差分析中的常见问题包括：

● 非随机分布

举个例子，假设我们在预测房价时，发现残差图呈现出一个弯曲的形状。这表明模型可能没有捕捉到房价与某些非线性因素之间的关系，如房屋面积与房价之间的非线性关系。此时，可能需要使用多项式回归或其他非线性模型。

● 异方差性

如果残差的分布在预测值较高时显著更大，可能意味着在某些情况下模型的预测误差较大。比如，在低价房屋中，残差相对较小，而在高价房屋中，残差变得不稳定。Breusch-Pagan 检验可以用来检测异方差性。

● 非正态分布

如果残差的直方图显示出明显的偏态（例如右偏），则说明残差不符合正态分布假设。这可能会影响模型参数的估计和检验。在这种情况下，可以考虑对目标变量进行变换以改善正态性。

● 异常值

如果在残差分析中发现某些观测值的残差异常高（例如，某个房屋的实际价格远高于预测值），这可能是由于数据错误或特殊情况造成的。需要调查这些异常值，并考虑是否应将其排除或单独处理。

● 多重共线性

假设我们使用多个自变量（如房屋面积、卧室数量和浴室数量）来预测房价。如果这些自变量之间存在高度相关性，残差可能会显示出不稳定的特征，影响模型的解释能力。可以使用方差膨胀因子（VIF）检测并考虑去除某些变量。

● 遗漏变量

如果在预测某一现象时遗漏了关键变量，例如在预测房价时没有考虑房屋的位置，这会导致残差出现系统性偏差。此时需要考虑将遗漏的变量添加到模型中。

● 模型问题

如果我们用线性回归模型来拟合一个显著非线性的关系，残差将表现出显著的模式或趋势，显示模型的不足。此时，可以考虑采用更复杂的模型（如神经网络）。

04  小结

残差分析是统计学中一个重要的概念，它涉及对模型拟合质量的评估。通过残差分析，我们可以了解模型是否能够很好地捕捉数据中的变异性，以及是否存在任何系统性的错误。后续我们将介绍更多的统计学知识，敬请关注。

参考文献

Bobbitt, Z. (2023, February 17). What is Considered a Good vs. Bad Residual Plot? Statology. https://www.statology.org/good-vs-bad-residual-plot/

Writer, S. How To Create A Residual Plot By Hand. Retrieved October 11, 2024, from https://scales.arabpsychology.co ... idual-plot-by-hand/

Sacco, A. O. and D. Chapter 8 Checking for the basic assumptions | Experimental methods in agriculture. Retrieved October 11, 2024, from https://www.statforbiology.com/_ ... ic-assumptions.html

语言科学漫谈

		自动登录	找回密码
密码			注册

统计学入门：残差分析

本帖子中包含更多资源