医微客 - 数据中的异常值，应该直接删除吗？

首页-> 学术资讯 -> 临床研究

数据中的异常值，应该直接删除吗？

临床研究

1970-01-01

3175 0

文章转载自“小白学统计”公众号，感谢作者授权。

不少人曾问我：我的数据中有异常值，是不是应该删除？要回答这个问题，我们必须从异常值的概念来谈起。可能有的人觉得异常值很好理解，不就是“异常”的值吗？关键是，怎样才算异常呢？

例：在10个数据中（下图黑色点）人为加入红、绿、紫色的3个点，它们都是异常值吗？

异常值其实是一个较为宽泛的概念，它至少包含了三种情形：

(1) 离群值（outliner）

离群值是指从因变量y的角度来看属于异常的值，如图中的红色点和绿色点，偏离y的均值较其它点更远。

离群值通常采用学生化残差来判断。

(2) 高杠杆值（high leverage）

高杠杆值是指从自变量x的角度来看属于异常的值，如图中的紫色点和绿色点，在x轴上偏离x的均值较远。

高杠杆值通常采用杠杆值来判断。

(3) 强影响值（influential observation）

强影响值是指对模型影响较大的值，也就是说，如果删除了该值，会导致模型发生很大变化（如系数值改变较大）。

强影响点通常采用COOK'D值、DFBETAS和DFFITS来判断。

下图比较了不同异常值对模型拟合效果的影响。图中黑色实线表示不含这3个异常值的拟合线，绿色、红色、紫色虚线分别表示含绿色点、红色点、紫色点时的拟合线。

不难看出，含有绿色点时，对模型拟合影响几乎不大（与黑色实线几乎重合）；含有紫色点时，拟合线被向下拉低，即回归系数远低于黑色实线；含有红色点时，拟合线也被拉低。

如果要判断的话，绿色点虽然从x方向和y方向上都偏离均值，但却不是强影响点；紫色点和红色点才是强影响点，因为单独的任一点便可以导致系数发生很大变化。

我们现在已经明白了如何判断一个点是不是异常点，紧接着的问题就是，如果我发现了异常点，应该怎么处理？不少人习惯简单粗暴的方法，即直接删除。这并不是最好的办法，有时甚至会让你错过一些真正的规律。

当你发现异常值后，一定要先分清是什么原因导致的异常值，然后再考虑如何处理。

如果是属于录入错误或实验室记录错误等，这很容易，立刻修改即可。

如果不是录入错误，而是确实存在这样的异常值，这时需要根据不同情形来分别对待。

首先，如果这一异常值并不代表一种规律性的，而是极其偶然的现象，或者说你并不想研究这种偶然的现象，这时可以将其删除。例如，你要研究身高与血压的关系，但你的研究人群中恰好纳入了姚明，这种情况下，可以将其删除，只用其他人进行分析。因为这并不代表一种规律性的现象，而且你可能也不想研究特殊的情况。

其次，如果异常值存在且代表了一种真实存在的现象，那就不能随便删除。比如调查了100个村的胃癌发病率，可能确实有个别村庄的发病率远远高于其它村，这时就不能随便删除，而是要把这些异常点纳入，重新拟合模型，研究其规律。

例：某实验室检测了细菌培养菌群数量与时间的关系，试进行分析。

很明显，下图中的两个红点是异常点，可以让线性回归的系数发生剧烈变化。

那这种情况下是否需要删除这两个值呢？首先看一下这两个值是否实验误差，如果这两个值是准确的，那它很可能代表了一种真实情况。也就是说，在短期内增长缓慢，但是到了一个关键时间点后（如30），种群数量就会剧增。

此时如果你直接删除这两个点，就无法真正发现这种规律。所以我们可以纳入这两个点，但是不能拟合线性回归，而是要根据其形状拟合非线性模型。如此处可以考虑对时间time进行指数变换，可以发现变换后模型更能有效地拟合数据。

扫码关注“医咖会”公众号，及时获取最新统计教程！

百度浏览来源 : 医咖会

版权声明：本网站所有注明来源“医微客”的文字、图片和音视频资料，版权均属于医微客所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源：”医微客”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，转载仅作观点分享，版权归原作者所有。不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。本站拥有对此声明的最终解释权。

分享：微信新浪微博 LinkedIn QQ好友 QQ空间豆瓣复制网址收藏夹打印

发表评论

注册或登后即可发表评论

全部评论(0)

没有更多评论了哦~

科研资讯更多>>

肿瘤电场治疗Optune Lua获批治疗..

成本更低的实体瘤抗癌新星：CAR-..

文献速递-子宫内膜癌中的卵黄囊..

Nature|MSCs首次用于人体跟腱病..

推荐阅读更多>>

论文统计图表常见的那些错，附大..

横断面研究与病例对照研究，你真..

SPSS详细教程：Cox回归中，连续..

SPSS详细教程：Cox回归中，分类..

临床研究

数据中的异常值，应该直接删除吗？

相关阅读
热门专题
推荐期刊
学院课程

医药卫生
期刊级别:国家级期刊
发行周期:暂无数据
出版地区:其他
影响因子:暂无数据
中华肿瘤
期刊级别:北大核心期刊
发行周期:月刊
出版地区:北京
影响因子:1.90
中华医学
期刊级别:CSCD核心期刊
发行周期:周刊
出版地区:北京
影响因子:0.94

SCI医学论文写作全部..
国自然系列
主讲:医客
第八章：Cover letter..
写作技巧
主讲:医微客
第七章：讨论-变通与..
写作技巧
主讲:医微客