注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

医学统计中流传的“似乎正确”的错误,你听说过几个?

临床研究

1970-01-01      

1550 0

内容来自:“小白学统计”微信公众号,感谢作者授权。

 

这个题目听起来似乎有点别扭,什么意思呢?就是说,有些话在医学统计中流传了很多年,不少医学生甚至有的流行病学、卫生统计学的老师或学生也这么说,但实际上,却偏偏是错误的说法。本文主要列举几个:

 

1、分类资料又称计数资料

 

在比较早的版本中,这种说法存在。现在的很多医学论文中,依然都这么说。然而分类资料与计数资料并不是一回事。
 
 

其实他们的区别很容易,分类资料(categorical data)是类似于像性别、职业、血型等名义型,它们的值都是无实际意义的,只是个标识而已。例如性别的男和女分别用1和2标识,这里你绝不能说2大于1。也就是说,在分类资料中,数值无所谓大小,只是个标志,你可以用1和2标识,也可以用5和98标识,只不过实际分析中没必要搞得那么复杂,所以都尽量简单地用1和2标识。

 

什么是计数资料(count data)顾名思义是可以清点计数的。比较典型的如咳嗽次数、疼痛次数、转移部位的个数等等。它们的值是有实际意义的,比如疼痛次数可能是1、2、3等,这里就可以说2大于1,4大于3等,因为3次就是大于2次,没什么可说的。这里的数值大小是起作用的。

 

如果从统计学角度来说,分类资料通常服从二项分布或多项分布,而计数资料通常服从Poisson分布或负二项分布。

 

现在还有不少文章在统计学方法中都提到“计数资料的比较采用卡方检验”,个人认为,严谨来说,应该是“分类资料的比较采用卡方检验”。

 

目前国内教材尚未严格区分这两个概念。我也查了很多文献和资料,很少有人清楚地阐述过这个问题,国内没有,国外也很少,但有的国外论坛中能看出大家对这两种资料的态度,肯定不是一回事,分析方法也不一样。维基百科(英文)对categorical data和count data是分别定义的,不是一回事。大家感兴趣的可以搜一下看看。

 

2、分类资料和等级资料的关系研究分析应该用秩和检验

 

这句话欺骗了很多人,让人觉得,凡是二维列联表中有一个是等级资料的,一定要用秩和检验。然而真相如何呢?我们举例说明一下:

 
例1,比较两种仪器的疗效有无差异,疗效是等级资料,组别是二分类资料。
 

 
例2,比较三个年龄组的满意度有无差异,年龄组是等级资料,满意与否是二分类资料。
 

 
这两个例子中,都是一个二分类资料,一个等级资料,那他们都要用秩和检验吗?非也。
 
 

关键的问题在哪儿呢?一定要区分:分组变量和分析变量。分析变量也就是结局可以看做因变量;分组变量也就是组别,可以看做自变量。

 

只有分析变量是等级资料的时候,才用秩和检验。分组变量是不是等级,无关紧要,不影响方法选择。记住:只看分析变量就行了

 

例1中,分析变量(结局)是疗效,作为等级资料,所以比较的时候需要采用秩和检验。例2中,分析变量(结局)是二分类资料,不是等级资料,所以不用秩和检验,用卡方检验即可。至于例2中的年龄是等级资料,并不影响卡方检验的使用。当然,分组变量是等级资料,你可以进一步做趋势检验。

 

3、样本量大于30数据就服从正态分布了

 

再说这个问题之前,我们先看一下下面这个图形,这是1650人的数据分布,大家看一下像是正态分布吗?

很明显,这怎么也称不上正态。所以问题是很明确的,关键是为什么大家会这么认为?

 

其实主要原因是:所谓的“30例以上服从正态分布”这种说法,是指从任意的一个分布中进行抽样,如果每一次抽样样本的例数都大于30,那么,每个样本的统计量(如均数)其分布接近正态。这也就是“中心极限定理”说的意思,但它不是说,一次抽样样本的数据大于30,这份数据就服从正态分布。千万不要搞混了,中心极限定理不是说原始数据的,而是说的抽样分布。具体解释可参见前文

 

4、凡是率的比较都可以用卡方检验

 

这又是一个被误解的典型错误说法,关键在于对“率”的定义。普通意义上的率,是指像二分类(如阳性和阴性、发病和不发病、有效和无效等)中的阳性率、发病率、有效率等。这类资料用卡方检验比较无可厚非。

 
然而还有一种率不能用卡方检验比较。比如变化率,假定有试验组和对照组,每组的观察对象都在第一个周测量了血糖值,第二周又测了一次,计算第二周相对第一周的变化率,这种率的计算方式通常是“(第二周-第一周)/第一周”,得到的也是“率”,然而这种率确是一个实实在在的连续资料,具有连续资料的一切特征,这时候如果你要比较两组的变化率有无差异,那就要按连续资料的方法,如t检验、秩和检验等。

 

有的人可能会有点糊涂,其实很好区分。典型的发病率、感染率等的“率”,是基于一群人只能计算出一个率,比如100人中感染40人,那100人的感染率就是40%。而作为连续资料的率,每个人都有一个率的值,比如,第一个人有一个变化率(如2.3%),第二个人也有一个变化率(如-0.6%)。

 

以前我曾见过这样的文章,明明是变化率,但却写的是用卡方检验,我一直很好奇,这么多的率,你是怎么放到软件里的?不觉得软件里没法放这些变量吗?

 

5、秩和检验效率远不如t检验(或方差分析等)

 

有的人把秩和检验看做“兵者,不祥之器”,不到万不得已不用。这也是不少人的一种偏见。我见过不少医学工作者,一看到数据不服从正态分布,立刻感觉整个天空都阴暗了。
 
 
我有时会说,可以用秩和检验,然而他们的回答是,不是说秩和检验不好吗?说实话,我一直不知道这些流言到底从何而来,源头到底在哪儿?似乎它就一直就存在了。是因为教材编排的原因吗?把它排在后面以至于不少人想当然就认为它是参数检验的备胎?还是其它原因?
 
 
秩和检验的效率并不是像很多人想象的那样低事实上,从很久以前到现在的统计学家都做过不少模拟验证,即使数据符合正态分布,秩和检验的效果也不比t检验、方差分析等这些参数检验查,模拟的结果提示,这种情况下,秩和检验的效率大约是参数检验的95%。而一旦数据偏离正态分布,秩和检验的效率将远远优于参数检验。
 

暂时先想到了这几个问题,如果后面还有想到的,再另文撰写。希望本文能都对各位朋友有一定的启发和帮助。

 

扫码关注“医咖会”公众号,及时获取最新重磅研究!



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • 解读真实世界证据时,我们要注意..
  • 【合集】样本量计算全教程,不要..
  • 多图预警:如何又快又美地用SAS..
  • 论文中统计报告的注意事项:多因..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94