
●回归插补法:是把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预测缺失值,以此完成缺失值插补的方法。是用非标准化的结果预测该变量的缺失值来实现的。
●自变量:所有被选入的连续变量
●因变量:存在缺失值的变量
●注意:
所选择的预测变量是否是完全数据(回归法运行中会忽略掉有缺失值的样本?)
变量是否线性相关
预测变量是否高度相关
●模式(步骤):
●缺失值插补完成后的检验:
根据模型拟合的程度等指标(R2 、F、p)看拟合的效果,如果模型拟合的不理想,可以:
1选择增加更多的子百年来那个
2改善自变量的数据质量
(1)对有缺失值的变量先进行填补,使之成为完全数据,这样该变量就能包含进来。
(2)对预测变量进行变换,包括开方,对数化,求倒数等等,如对工资变量开平方,使数据接近正态分布。
●操作演示
