注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

在处理缺失值前,你得先搞清楚是哪种缺失

临床研究

1970-01-01      

1436 0

来源:“小白学统计”微信公众号;作者:冯国双 

 

缺失值是一个几乎在任何研究中都存在的问题,你进行任何的调查、测量,总是不可能保证所有数据都齐全。目前关于缺失值的研究已经发展出一个专门的领域,处理缺失值的方法也很多,本文主要先介绍一下缺失值的几种情况。

 

有的人说,有缺失值,我假装看不见,直接把数据扔到统计软件中,让软件自己给我处理吧。那么统计软件是如何处理你这种态度呢?

 

在统计软件中,如果你忽略缺失值,直接把缺失和非缺失的数值都一股脑扔到软件里,(当你做多因素分析时)它会自动把缺失的观测删除,不管这个观测是有1个变量缺失还是10个变量缺失。设想一下,你有10个变量,100个数值,假设每个变量缺失9个,而且每个变量缺失的都不重复,那就麻烦了,那软件就会认为你一共缺失了90例,最后给你用在分析上的,只有10例了。

 

所以,如果你想假装看不见是不行的,必须采取一定的措施。不过本文暂不介绍如何处理缺失值,先了解几个与缺失有关的概念。

 

缺失值主要可分为三种情形:

 

(1)完全随机缺失(MissingCompletely at Random,MCAR)

 

完全随机缺失的意思是,缺失的数据与自身和其它任何变量都没有关系。

 

这句话很多人都不好理解,什么叫跟自身无关?

 

举个例子,某研究调查了收入、教育程度等变量,如果收入有缺失,而且这种缺失与收入本身无关,与其它变量也无关。这就是完全随机缺失。

 

这里先说一下,什么叫跟自身无关,意思是不管收入高的人还是收入低的人,都有同样的缺失率;如果跟本身有关,意思是,可能收入高的人缺失更多(也许是怕露富,也许是收入来源难以启齿,等等各种原因,所以不想填),而收入低的人缺失较少。

 

什么叫与其它变量无关,以受教育程度这一变量为例,意思是,不管教育程度高还是低,都有同等的缺失率。如果跟其它变量有关,意思是,教育程度高的人,可能收入缺失的较多,而教育程度低的人,可能收入缺失较少(当然也可能是反过来)。

 

凡是这种跟自身和其它变量都无关的缺失,这种情况称为完全随机缺失,也就是说,任何人都有相同的机会产生缺失。

 

在这种情况下,把缺失数据直接删除,不会影响结果估计的准确性,只会影响精确性。例如,在不缺失情况下,估计的回归系数为0.6,那么删除缺失值后,系数估计值应该仍在0.6附近,只是由于例数变少,标准误会增大,从而置信区间变宽。

 

(2)随机缺失(Missingat Random,MAR)

 

完全随机缺失是一种最理想的情况,然而实际中往往很难保证这一假定,实际中大家研究更多的是随机缺失。随机缺失的意思是,缺失变量与自身无关,但与其它变量有关。

 

例如收入与教育程度,如果收入缺失与教育程度有关系(如教育程度高的人比教育程度低的人缺失的更多),但是与收入本身无关(高收入和低收入的人的缺失人数差不多),这种情况就是随机缺失。

 

所以,当你的数据有缺失的时候,一般统计学专家都会让你做一下一些重要变量的分布情况,如比较一下缺失和非缺失的一些性别、年龄等是否有差异。如果没有差异,那还说得过去。否则就不好解释了。

 

(3)非随机缺失(NotMissing at Random,NMAR)

 

非随机缺失是指缺失与自身变量有关,例如收入的缺失,如果发现收入高的人更倾向于不填数据,而收入低的人一般都不缺失,说明收入的缺失是与自身变量有关的。这就是非随机缺失。

 

这种情况就比较麻烦,因为如果收入高的人大都缺失了,那就相当于样本选择有偏,这时候你的结论的可靠性就要打个折扣了。



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • SPSS操作:碰见有序分类资料,怎..
  • 连续变量的一致性评价,教你一种..
  • 这两本影响因子超5分的SCI,只需..
  • 匆匆地,你得到了操作和结果,却..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94