|
统计学入门:残差分析
原创 黄宝荣 语言科学漫谈 2024 年 10 月 12 日 10:57 上海
01 引言
残差分析是评估统计模型有效性的关键步骤,主要用于评估模型的拟合程度。通过分析模型预测值与实际观测值之间的差异(残差),可以判断模型是否合理。下面我们具体了解下残差分析。
02 残差(residual)的定义
残差是指在统计建模中,实际观测值与模型预测值之间的差异。
残差可以用以下公式计算:
残差 = 实际值 - 预测值 。
举例来说,假设我们有一个简单的线性回归模型,用来预测学生的考试成绩。实际观察到的成绩和模型预测的成绩如下:
学生 A :实际成绩 85,预测成绩 80 → 残差 = 85 - 80 = 5
学生 B :实际成绩 90,预测成绩 95 → 残差 = 90 - 95 = -5
学生 C :实际成绩 78,预测成绩 75 → 残差 = 78 - 75 = 3
在这个例子中,学生 A 和 C 的残差为正,表示模型低估了他们的成绩,而学生 B 的残差为负,表示模型高估了其成绩。
在残差分析中,需要注意的问题是系统性偏差。系统性偏差是指残差在某个特定范围或条件下,表现出一致的偏差,意味着模型在这些情况下普遍低估/或高估了实际值。换句话说,当观察残差时,残差不是随机分布,而是偏向某个方向(例如,持续为正值)。
举个例子,假设我们在预测某些学生的考试成绩时,发现以下残差模式:
在低分段(如 60~70 分)时,残差为正(如 +5 , +7 , +10 )。
在高分段(如 90~100 分)时,残差为负(如 -3 , -5 , -8 )。
这种情况表明,模型在低分段上表现出系统性的低估,而在高分段上表现出系统性的高估。
系统性偏差提示我们需要改进模型,例如通过引入更多的特征、考虑非线性关系或使用其他更合适的模型形式。
下面我们来看下多元线性回归模型的情况。
假设我们有一个预测房价的模型,使用了两个特征:房屋面积(X1)和房龄(X2)。模型形式为:
房价 = β0 + β1×面积 X1 + β2×房龄 X2 + ε
其中,ε 是残差项,表示模型未能解释的部分。
数据样例如下:
经过拟合,我们的模型预测出了以下房价:
对于 100 平米、5 年房龄,预测房价 = 190 万元 → 残差 = 200 - 190 = 10 万元
对于 150 平米、10 年房龄,预测房价 = 240 万元 → 残差 = 250 - 240 = 10 万元
对于 120 平米、2 年房龄,预测房价 = 210 万元 → 残差 = 220 - 210 = 10 万元
在这个例子中,所有的残差都是正值,表明模型在所有观测值上都有一定的低估。这些残差项(ε)说明存在潜在因素,可能是因为遗漏了其他重要的特征或模型不够复杂。
03 残差分析的步骤
残差分析一般包括下列步骤:
1. 计算残差:
计算每个观测值的残差,公式为:
残差 = 实际值 - 预测值 。
图 1 残差计算
2. 绘制残差图:
创建残差与预测值的散点图,查看残差的分布情况。
如下图所示,如果残差位于 x 轴的两侧,且没有明显的模式,则说明没有系统性偏差。
图 2 残差图
3. 检查残差的正态性:
使用 Q-Q 图或直方图检查残差是否近似符合正态分布。
Q-Q 图,全称 Quantile-Quantile 图,是统计学中用于比较两个概率分布的图形工具。它通过将两个分布的分位数进行比较,来评估它们是否相似。在 Q-Q 图中,如果两个分布相似,那么图中的点将近似地落在一条直线上,这条直线通常被称为参考线或拟合线。如果点紧密地围绕这条直线分布,那么可以认为样本数据遵循与参考分布相同或相似的分布。Q-Q 图的一个常见用途是检验数据是否近似于正态分布。Q-Q 图上的点如果近似地落在一条直线上,那么可以认为数据近似正态分布。如果 Q-Q 图的点在中间部分近似成直线,但在两端偏离,这可能表明数据的分布具有不同的偏度或峰度特征。
图 3 正常的图
图 4 右偏的数据图
图 5 直方图
4. 检测异方差性:
观察残差的方差是否随预测值的变化而变化,即它们的变异性在不同水平的预测值上是否恒定。如果残差的方差随着预测值的增加而增加,这种现象被称为异方差性,可能需要对模型进行调整。通常使用 Breusch-Pagan 检验等方法来判断。
Breusch-Pagan 检验是一种用于检测回归模型中是否存在异方差的统计检验。异方差性(Heteroscedasticity)指的是模型的误差项在不同水平的自变量上具有不恒定的方差,这违反了普通最小二乘法(OLS)的经典假设之一——同方差性(Homoscedasticity),即误差项具有恒定的方差。
Breusch-Pagan检验使用了两个假设:
零假设 (H0):模型中存在同方差性,即残差以等方差分布。
备择假设 (HA):模型中存在异方差性,即残差不以等方差分布。
5. 识别模式和趋势:
检查残差图中是否存在明显的模式,如弯曲现象,这可能表明模型需要改进。
图 6 弯曲的残差(模型拟合不佳)
图 7 绝对值逐渐增大的残差(模型拟合不佳)
图 8 逐渐增大的残差(模型拟合不佳)
6. 进行模型诊断:
根据残差分析结果,判断模型是否有问题,找出改进方向。
7. 调整模型:
根据分析结果,考虑添加新变量、变换现有变量或使用更复杂的模型。
8. 重复上述过程:
在调整模型后,重新进行残差分析,确保改进是有效的。
03 常见问题
残差分析中的常见问题包括:
● 非随机分布
举个例子,假设我们在预测房价时,发现残差图呈现出一个弯曲的形状。这表明模型可能没有捕捉到房价与某些非线性因素之间的关系,如房屋面积与房价之间的非线性关系。此时,可能需要使用多项式回归或其他非线性模型。
● 异方差性
如果残差的分布在预测值较高时显著更大,可能意味着在某些情况下模型的预测误差较大。比如,在低价房屋中,残差相对较小,而在高价房屋中,残差变得不稳定。Breusch-Pagan 检验可以用来检测异方差性。
● 非正态分布
如果残差的直方图显示出明显的偏态(例如右偏),则说明残差不符合正态分布假设。这可能会影响模型参数的估计和检验。在这种情况下,可以考虑对目标变量进行变换以改善正态性。
● 异常值
如果在残差分析中发现某些观测值的残差异常高(例如,某个房屋的实际价格远高于预测值),这可能是由于数据错误或特殊情况造成的。需要调查这些异常值,并考虑是否应将其排除或单独处理。
● 多重共线性
假设我们使用多个自变量(如房屋面积、卧室数量和浴室数量)来预测房价。如果这些自变量之间存在高度相关性,残差可能会显示出不稳定的特征,影响模型的解释能力。可以使用方差膨胀因子(VIF)检测并考虑去除某些变量。
● 遗漏变量
如果在预测某一现象时遗漏了关键变量,例如在预测房价时没有考虑房屋的位置,这会导致残差出现系统性偏差。此时需要考虑将遗漏的变量添加到模型中。
● 模型问题
如果我们用线性回归模型来拟合一个显著非线性的关系,残差将表现出显著的模式或趋势,显示模型的不足。此时,可以考虑采用更复杂的模型(如神经网络)。
04 小结
残差分析是统计学中一个重要的概念,它涉及对模型拟合质量的评估。通过残差分析,我们可以了解模型是否能够很好地捕捉数据中的变异性,以及是否存在任何系统性的错误。后续我们将介绍更多的统计学知识,敬请关注。
参考文献
Bobbitt, Z. (2023, February 17). What is Considered a Good vs. Bad Residual Plot? Statology. https://www.statology.org/good-vs-bad-residual-plot/
Writer, S. How To Create A Residual Plot By Hand. Retrieved October 11, 2024, from https://scales.arabpsychology.co ... idual-plot-by-hand/
Sacco, A. O. and D. Chapter 8 Checking for the basic assumptions | Experimental methods in agriculture. Retrieved October 11, 2024, from https://www.statforbiology.com/_ ... ic-assumptions.html
语言科学漫谈 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|