文献[1]和[5]主要介绍缺失数据问题的复杂性、基本概念和产生的原因及其分类;文献[2]中给出了常用解决缺失数据的几种方法删除法、不处理法和填补法的基本概念及适用范围;文献[3]、[6]、[7]介绍了简单填补法和多重填补法的分类,基本含义及原理;文献[4]、[8]和[13]介绍了一些缺失数据的模型;文献[11]、[12]和[13]介绍了如何利用SPSS软件解决缺失数据问题的步骤.
本文首先对传统的缺失数据估计中的删除法、不处理法和填补法进行介绍,阐明缺失数据问题的处理中,不同方法的特点及适用的环境;再阐述了简单填补法中的均值填补法,回归填补法,期望值最大化填补法和多重填补法的原理,最后利用SPSS软件对均值填补法,期望值最大化法和回归填补法进行模拟,比较不同缺失率情况下各方法的优劣.
1.缺失数据的含义和分类
1.1 缺失数据的含义
数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据.它指的是现有数据集中某个或某些属性的值是不完全的.
1.2数据缺失产生的因素
在统计调查过程中,尽管专家研究人员进行了周密、严谨的设计,但是数据缺失这种情况仍然是不可避免的.造成这种现象的原因有很多,综合各方面的原因,主要有以下几种:
1.有些信息是被遗漏的. 调查人员在采集数据时,因为主观原因,人为的认为某些数据不重要或没有价值,而私自丢弃数据;又或者调查人员在录入信息的过程中失误;又或者机器损坏,造成数据的丢失或错误. 论文网
2. 有些信息暂时无法获取.例如在医疗数据库中,调查人员并不是能够在一定的时间内得到所需病人的医学报告单;此外,对于调查比较隐私或比较敏感的问题,一些受访者会拒绝透露被调查的信息,或者给出错误的信息,这就使得一部分数值空缺出来,造成数据的缺失.
3. 有些对象的某些个属性是不可用的.例如调查年龄与收入的关系,那么10岁以下的调查结果就没有意义.
4.获取所需的信息代价很大或者系统实时性要求太高,从而造成数据的缺失.
1.3缺失数据的分类
在对缺失数据处理之前,首先要对缺失数据进行分类,以变来选择用哪种或哪几种处理方法处理缺失数据.根据缺失数据与非缺失数据之间的关系,一般分为三种,即完全随机缺失(Missing Completely at Random ,MCAR),随机缺失(Missing at Random, MA),完全非随机缺失(Missing Not at Random,MNAR).
完全随机缺失:它是缺失数据中最简单的一种.指的是缺失现象是完全随机的,即缺失和变量的取值无关.例如假设研究年龄和收入的关系,如果缺失的数据数据和年龄或收入取值无关,则确实方式为完全随机缺失.在统计分析中,若将含有缺失记录的数据删除,分析结果不会或者有很小的偏差.
随机缺失:缺失分布中调查变量只依赖于数据组中有记录的变量.继续上面的例子,考虑年龄全被观察,而收入有时候缺失如果收入缺失值仅依赖与年龄,则为随机缺失.
非完全随机缺失:如果缺失数据既非完全随机缺失,也非随机缺失,那么就是非完全随机缺失.数据的缺失值不仅与其他变量有关,也与自身有关.这种类型的缺失数据最为麻烦. 缺失数据的估计与应用+文献综述(2):http://www.751com.cn/shuxue/lunwen_10275.html