多元线性回归中的逐步回归
前面我们讲过了 多元线性回归 。本期跟大家一起交流一下多元线性回归分析的升级版——逐步回归。什么是逐步回归呢?就是字面意思,一步一步进行回归。
我们在进行多元回归是要考虑众多个自变量 x 中是否都对因变量 y 有作用。对于那些没有作用的变量最好是不让它加入到回归模型里面。我们把这个筛选起作用的变量或者剔除不起作用变量的过程叫做变量选择。这也是逐步回归的基本思想。
逐步回归是以线性回归为基础的方法。其思路是将变量一个接着一个引入,并在引入一个新变量后,对已入选回归模型的旧变量逐个进行检验,将认为没有意义的变量删除,直到没有新变量引入也没有旧变量删除,从而保证回归模型中每一个变量都有意义。
基本步骤如下如图所示:
逐步回归主要解决的是 多变量共线性问题 ,也就是不是线性无关的关系,它是基于变量解释性来进行特征提取的一种回归方法。
逐步回归的主要做法有三种 :
1、向前选择(Forward)
将自变量逐个引入模型,引入一个自变量后要查看该变量的引入是否使得模型发生显著性变化(F检验),如果发生了显著性变化,那么则将该变量引入模型中,否则忽略该变量,直至所有变量都进行了考虑。即将变量按照贡献度从大到小排列,依次加入。
特点:自变量一旦选入,则永远保存在模型中;不能反映自变量选进模型后的模型本身的变化情况。
2、向后选择(Backward)
与向前选择相反,在这个方法中,将所有变量放入模型,然后尝试将某一变量进行剔除,查看剔除后对整个模型是否有显著性变化(F检验),如果没有显著性变化则剔除,若有则保留,直到留下所有对模型有显著性变化的因素。即将自变量按贡献度从小到大,依次剔除。
特点:自变量一旦剔除,则不再进入模型;开始把全部自变量引入模型,计算量过大。
3、逐步筛选法(stepwise)
是向前选择和向后选择两种方法的结合,即一边选择,一边剔除。
当引入一个变量后,首先查看这个变量是否使得模型发生显著性变化(F检验),若发生显著性变化,再对所有变量进行t检验,当原来引入变量由于后面加入的变量的引入而不再显著变化时,则剔除此变量,确保每次引入新的变量之前回归方程中只包含显著性变量,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,最终得到一个最优的变量集合。
案例介绍
上海每个月都会向化石燃料汽车购买者拍卖数量有限的车牌,在逐步回归方法中使用该月颁发的车牌数、最低价格和申请人总数预测下个月的平均价格。
软件操作
这里使用是常见的逐步法,以及进入和删除的概率值均使用默认值
结果解读
1)模型数据摘要
一般逐步回归是用作变量筛选的,这一步的结果给出了哪些变量被舍弃,哪些变量被保留,从而关注变量的重要性。
这里舍弃了申请人总数这一项变量
2)逐步回归模型结果表
这一步对构建好的模型进行F检验,检查模型构建情况,是否存在多重共线性问题,一般经过筛选后的逐步回归模型都能通过这个检验。
从F检验的结果分析可以得到,显著性P值为0.000***,水平呈现显著性,拒绝回归系数为0的原假设。
对于变量共线性表现,VIF全部小于10,因此模型没有多重共线性问题,模型构建良好。
可以得到模型的公式如下: y=1519.197+0.933*最低价格+0.401*颁发的车牌数
3)拟合效果图
展示了本次模型的原始数据图、模型拟合值、模型预测值。
4)模型路径图
以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析X对于Y的影响关系情况。
5)模型结果预测
输入数据可实现对模型的预测。
注意事项
1、逐步回归一般有三种策略:正向、向后和逐步选择。一般采用默认的逐步选择即可。
2、逐步回归一般用于变量的筛选(哪些变量重要,且最终结果没有多重共线性),结果可以作为其他模型的输入。也可以对共线性严重的数据进行回归分析的预测或者解释。
3、如果输出“模型无显著变量”,说明可能所有的自变量均无太大意义