医微客 - 在处理缺失值前，你得先搞清楚是哪种缺失

首页-> 学术资讯 -> 临床研究

在处理缺失值前，你得先搞清楚是哪种缺失

临床研究

1970-01-01

1590 0

来源：“小白学统计”微信公众号；作者：冯国双

缺失值是一个几乎在任何研究中都存在的问题，你进行任何的调查、测量，总是不可能保证所有数据都齐全。目前关于缺失值的研究已经发展出一个专门的领域，处理缺失值的方法也很多，本文主要先介绍一下缺失值的几种情况。

有的人说，有缺失值，我假装看不见，直接把数据扔到统计软件中，让软件自己给我处理吧。那么统计软件是如何处理你这种态度呢？

在统计软件中，如果你忽略缺失值，直接把缺失和非缺失的数值都一股脑扔到软件里，（当你做多因素分析时）它会自动把缺失的观测删除，不管这个观测是有1个变量缺失还是10个变量缺失。设想一下，你有10个变量，100个数值，假设每个变量缺失9个，而且每个变量缺失的都不重复，那就麻烦了，那软件就会认为你一共缺失了90例，最后给你用在分析上的，只有10例了。

所以，如果你想假装看不见是不行的，必须采取一定的措施。不过本文暂不介绍如何处理缺失值，先了解几个与缺失有关的概念。

缺失值主要可分为三种情形：

（1）完全随机缺失（MissingCompletely at Random，MCAR）

完全随机缺失的意思是，缺失的数据与自身和其它任何变量都没有关系。

这句话很多人都不好理解，什么叫跟自身无关？

举个例子，某研究调查了收入、教育程度等变量，如果收入有缺失，而且这种缺失与收入本身无关，与其它变量也无关。这就是完全随机缺失。

这里先说一下，什么叫跟自身无关，意思是不管收入高的人还是收入低的人，都有同样的缺失率；如果跟本身有关，意思是，可能收入高的人缺失更多（也许是怕露富，也许是收入来源难以启齿，等等各种原因，所以不想填），而收入低的人缺失较少。

什么叫与其它变量无关，以受教育程度这一变量为例，意思是，不管教育程度高还是低，都有同等的缺失率。如果跟其它变量有关，意思是，教育程度高的人，可能收入缺失的较多，而教育程度低的人，可能收入缺失较少（当然也可能是反过来）。

凡是这种跟自身和其它变量都无关的缺失，这种情况称为完全随机缺失，也就是说，任何人都有相同的机会产生缺失。

在这种情况下，把缺失数据直接删除，不会影响结果估计的准确性，只会影响精确性。例如，在不缺失情况下，估计的回归系数为0.6，那么删除缺失值后，系数估计值应该仍在0.6附近，只是由于例数变少，标准误会增大，从而置信区间变宽。

（2）随机缺失（Missingat Random，MAR）

完全随机缺失是一种最理想的情况，然而实际中往往很难保证这一假定，实际中大家研究更多的是随机缺失。随机缺失的意思是，缺失变量与自身无关，但与其它变量有关。