1970-01-01
来源:“小白学统计”微信公众号;作者:冯国双
缺失值是一个几乎在任何研究中都存在的问题,你进行任何的调查、测量,总是不可能保证所有数据都齐全。目前关于缺失值的研究已经发展出一个专门的领域,处理缺失值的方法也很多,本文主要先介绍一下缺失值的几种情况。
有的人说,有缺失值,我假装看不见,直接把数据扔到统计软件中,让软件自己给我处理吧。那么统计软件是如何处理你这种态度呢?
在统计软件中,如果你忽略缺失值,直接把缺失和非缺失的数值都一股脑扔到软件里,(当你做多因素分析时)它会自动把缺失的观测删除,不管这个观测是有1个变量缺失还是10个变量缺失。设想一下,你有10个变量,100个数值,假设每个变量缺失9个,而且每个变量缺失的都不重复,那就麻烦了,那软件就会认为你一共缺失了90例,最后给你用在分析上的,只有10例了。
所以,如果你想假装看不见是不行的,必须采取一定的措施。不过本文暂不介绍如何处理缺失值,先了解几个与缺失有关的概念。
缺失值主要可分为三种情形:
(1)完全随机缺失(MissingCompletely at Random,MCAR)
完全随机缺失的意思是,缺失的数据与自身和其它任何变量都没有关系。
这句话很多人都不好理解,什么叫跟自身无关?
举个例子,某研究调查了收入、教育程度等变量,如果收入有缺失,而且这种缺失与收入本身无关,与其它变量也无关。这就是完全随机缺失。
这里先说一下,什么叫跟自身无关,意思是不管收入高的人还是收入低的人,都有同样的缺失率;如果跟本身有关,意思是,可能收入高的人缺失更多(也许是怕露富,也许是收入来源难以启齿,等等各种原因,所以不想填),而收入低的人缺失较少。
什么叫与其它变量无关,以受教育程度这一变量为例,意思是,不管教育程度高还是低,都有同等的缺失率。如果跟其它变量有关,意思是,教育程度高的人,可能收入缺失的较多,而教育程度低的人,可能收入缺失较少(当然也可能是反过来)。
凡是这种跟自身和其它变量都无关的缺失,这种情况称为完全随机缺失,也就是说,任何人都有相同的机会产生缺失。
在这种情况下,把缺失数据直接删除,不会影响结果估计的准确性,只会影响精确性。例如,在不缺失情况下,估计的回归系数为0.6,那么删除缺失值后,系数估计值应该仍在0.6附近,只是由于例数变少,标准误会增大,从而置信区间变宽。
(2)随机缺失(Missingat Random,MAR)
完全随机缺失是一种最理想的情况,然而实际中往往很难保证这一假定,实际中大家研究更多的是随机缺失。随机缺失的意思是,缺失变量与自身无关,但与其它变量有关。
例如收入与教育程度,如果收入缺失与教育程度有关系(如教育程度高的人比教育程度低的人缺失的更多),但是与收入本身无关(高收入和低收入的人的缺失人数差不多),这种情况就是随机缺失。
所以,当你的数据有缺失的时候,一般统计学专家都会让你做一下一些重要变量的分布情况,如比较一下缺失和非缺失的一些性别、年龄等是否有差异。如果没有差异,那还说得过去。否则就不好解释了。
(3)非随机缺失(NotMissing at Random,NMAR)
非随机缺失是指缺失与自身变量有关,例如收入的缺失,如果发现收入高的人更倾向于不填数据,而收入低的人一般都不缺失,说明收入的缺失是与自身变量有关的。这就是非随机缺失。
这种情况就比较麻烦,因为如果收入高的人大都缺失了,那就相当于样本选择有偏,这时候你的结论的可靠性就要打个折扣了。
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)