当前位置:首页 > 科技 > 正文

加权线性回归(加权最小二乘法回归)

转自个人微信公众号【Memo_Cleon】的统计学习笔记:加权线性回归(加权最小二乘法回归)。

残差恒定是线性回归建模的一个前提条件,《线性回归中的方差齐性探察》一文曾介绍过各种线性回归的方差齐性的检验方法。如果出现了异方差,数据变换、方差稳健估计(使用三明治方差估计量)、加权最小二乘法回归、非参数回归都是可以考虑的方法。此次笔记介绍加权最小二乘法(weighted least square,WLS)回归。

SPSS中至少有两个过程可以实现加权线性回归,一是直接在线性回归中直接指明权重(WLS weight),该方法需要先确定权重;二是权重估计(Weight Estimation),用于获取最优的权重并以这个权重进行WLS回归。

一般来说,在线性回归中的WLS权重以取样本的频数、方差的倒数多见。频数好理解,比如在你想看下血液中某些指标间的关系,如果同一个受试者的血液接受了不同次数的检测,在进行回归时用的是各个受试者的平均值,很显然同一个患者检测次数越多,其结果越稳定,在进行分析时可以直接将检测的次数作为权重。方差的倒数则有多种实现形式,而且结果也略有差异:①最直接的方法就是直接计算。先将某解释变量分成一定数量的组,求得每个组的响应变量的方差,拟合方差与该解释变量分组值的线性关系获得回归方程,然后再将该解释变量的原始值代入回归方程求得解释变量每个具体值对应的方差估计值,取其倒数作为权重;②先采用普通最小二乘法(Ordinary least-squares,OLS)拟合回归模型求得残差,以残差平方(或残差绝对值)对合适的解释变量进行回归,获得回归方程,再这个回归方程获得拟合值,权重为拟合值(或拟合值平方)的倒数。②中方法的逻辑是残差平方的期望值是方差。与OLS相比,WLS估计的回归系数标准误更小(更稳定、变异更小),回归系数差别不大,如果差别过大则需要WLS的残差再次进行权重回归(迭代再加权最小二乘)不断获得修正的权重。 SPSS中的权重估计(Weight Estimation)则相对比较简单,只需要设定权重变量和幂范围就可以了,软件会自动计算幂范围内的各个权重,权重为 权重变量取幂后的倒数 【1/(weight variable)**power】,并使用最佳的权重进行加权回归。 本次笔记演示权重估计的SPSS操作步骤。
示例:272例儿童年龄与白细胞值得关系。数据来源:白话统计.电子工业出版社,2018.

这实际上并不是一个十分恰当的例子,其正态分布也不满足要求,在《Box-Cox变换:非正态数据的处理》有过演示。因此本文不考虑线性、正态性,只是单纯演示方差不齐下采用加权最小二乘法的SPSS操作步骤。

【1】数据录入 :略。 【2】方差齐性考察:检验方法有很多,可参见《线性回归中的方差齐性探察》。

Analyze>>Regression>>Linear…

Dependent(因变量):选入WC;

Independent(自变量):选入age;

Plot…:X选入标准化预测值(ZPRED),Y选入标准化残差(ZRESID);

Save…:选中残差部分的[未标准化残差]。

Graphs>>Chart Builder;

Gallery: Scatter/Dot>>Simple Scatter,将age拖入横坐标,刚生成的未标准化残差拖入纵坐标。

结果显示随着年龄的增长,残差呈逐渐减少的趋势,方差不齐。

【3】权重估计: Analyze>>Regression>>Weight Estimation…
Dependent(响应变量):选入WC; Independent(解释变量):选入age; Weight Variable(权重变量):选入age。 权重估计过程以此 变量取幂后的倒数 对数据进行加权。 Power Range (幂范围):默认-2~2,步长0.5。 与权重变量结合使用计算权重,-6.5≤幂范围取值≤7.5,幂的值范围为从低值到高值,增量由指定的步长值(by)确定,幂范围中值的总数不能超过150。权重估计过程将利用幂范围的每个幂值拟合多个回归方程,使对数似然函数最大的幂对应的回归方程为最佳模型。 Option…:选中将最优权重另存为新变量 。

结果会首先给出幂总结表,显示幂值等于-1.5时,对数似然值最大(-739.097),同时会给出权重weight=age^-1.5时的回归结果,数据表中会增加一列名称为[WGT_1]的数据表示权重(Weight for WC from WLS, MOD_2 AGE** 1.5)。

但由于我们设置的步长为0.5,最佳幂值在-1.5左右,-2~-1之间,为获得更为精确的幂值,我们可以将幂范围和步长做进一步精确:

Power range: -2 through -1 by: 0.1 调整后结果同未调整的结果,幂值等于-1.5时,对数似然值最大。在此幂值计算的权重下,进行加权线性回归结果。

在幂总结表之后是最佳模型(幂值为-1.5时)的统计结果:加权最小二乘法(WLS)的参数估计结果同普通最小二乘法(OLS)的参数估计结果差别并不是太大,方差不齐对参数估计准确性影响不大,影响的是参数估计值的精确度,也就是说WLS估计的解释变量回归系数标准误更小(更稳定、变异更小)。本例OLS估计的系数标准误0.076,而WLS为0.072。

还有一点需要说明,WLS结果的复相关系数比OLS要大,这是因为即使在WLS相关系数的计算还是按照OLS法进行计算的,因此加权后的回归方程相关系数必然小于OLS,也就是说此时不能用相关系数来判断模型的优劣。

权重估计中给出了模型的一些基本信息,如果想得到更多的信息,可以运行线性回归,将权重估计成的变量WGT_1选入WLS weight框即可,具体操作和结果解读可参见《 多重线性回归分析 》。 Analyze>>Regression>>Linear…

转自个人微信公众号【Memo_Cleon】的统计学习笔记:加权线性回归(加权最小二乘法回归)。

… E N D …

有话要说...

取消
扫码支持 支付码