1970-01-01
内容来自:“小白学统计”微信公众号,感谢作者授权。
这个题目听起来似乎有点别扭,什么意思呢?就是说,有些话在医学统计中流传了很多年,不少医学生甚至有的流行病学、卫生统计学的老师或学生也这么说,但实际上,却偏偏是错误的说法。本文主要列举几个:
1、分类资料又称计数资料
其实他们的区别很容易,分类资料(categorical data)是类似于像性别、职业、血型等名义型,它们的值都是无实际意义的,只是个标识而已。例如性别的男和女分别用1和2标识,这里你绝不能说2大于1。也就是说,在分类资料中,数值无所谓大小,只是个标志,你可以用1和2标识,也可以用5和98标识,只不过实际分析中没必要搞得那么复杂,所以都尽量简单地用1和2标识。
什么是计数资料(count data),顾名思义是可以清点计数的。比较典型的如咳嗽次数、疼痛次数、转移部位的个数等等。它们的值是有实际意义的,比如疼痛次数可能是1、2、3等,这里就可以说2大于1,4大于3等,因为3次就是大于2次,没什么可说的。这里的数值大小是起作用的。
如果从统计学角度来说,分类资料通常服从二项分布或多项分布,而计数资料通常服从Poisson分布或负二项分布。
现在还有不少文章在统计学方法中都提到“计数资料的比较采用卡方检验”,个人认为,严谨来说,应该是“分类资料的比较采用卡方检验”。
目前国内教材尚未严格区分这两个概念。我也查了很多文献和资料,很少有人清楚地阐述过这个问题,国内没有,国外也很少,但有的国外论坛中能看出大家对这两种资料的态度,肯定不是一回事,分析方法也不一样。维基百科(英文)对categorical data和count data是分别定义的,不是一回事。大家感兴趣的可以搜一下看看。
2、分类资料和等级资料的关系研究分析应该用秩和检验
这句话欺骗了很多人,让人觉得,凡是二维列联表中有一个是等级资料的,一定要用秩和检验。然而真相如何呢?我们举例说明一下:
关键的问题在哪儿呢?一定要区分:分组变量和分析变量。分析变量也就是结局可以看做因变量;分组变量也就是组别,可以看做自变量。
只有分析变量是等级资料的时候,才用秩和检验。分组变量是不是等级,无关紧要,不影响方法选择。记住:只看分析变量就行了。
例1中,分析变量(结局)是疗效,作为等级资料,所以比较的时候需要采用秩和检验。例2中,分析变量(结局)是二分类资料,不是等级资料,所以不用秩和检验,用卡方检验即可。至于例2中的年龄是等级资料,并不影响卡方检验的使用。当然,分组变量是等级资料,你可以进一步做趋势检验。
3、样本量大于30数据就服从正态分布了
再说这个问题之前,我们先看一下下面这个图形,这是1650人的数据分布,大家看一下像是正态分布吗?
很明显,这怎么也称不上正态。所以问题是很明确的,关键是为什么大家会这么认为?
其实主要原因是:所谓的“30例以上服从正态分布”这种说法,是指从任意的一个分布中进行抽样,如果每一次抽样样本的例数都大于30,那么,每个样本的统计量(如均数)其分布接近正态。这也就是“中心极限定理”说的意思,但它不是说,一次抽样样本的数据大于30,这份数据就服从正态分布。千万不要搞混了,中心极限定理不是说原始数据的,而是说的抽样分布。具体解释可参见前文。
4、凡是率的比较都可以用卡方检验
这又是一个被误解的典型错误说法,关键在于对“率”的定义。普通意义上的率,是指像二分类(如阳性和阴性、发病和不发病、有效和无效等)中的阳性率、发病率、有效率等。这类资料用卡方检验比较无可厚非。
有的人可能会有点糊涂,其实很好区分。典型的发病率、感染率等的“率”,是基于一群人只能计算出一个率,比如100人中感染40人,那100人的感染率就是40%。而作为连续资料的率,每个人都有一个率的值,比如,第一个人有一个变化率(如2.3%),第二个人也有一个变化率(如-0.6%)。
以前我曾见过这样的文章,明明是变化率,但却写的是用卡方检验,我一直很好奇,这么多的率,你是怎么放到软件里的?不觉得软件里没法放这些变量吗?
5、秩和检验效率远不如t检验(或方差分析等)
暂时先想到了这几个问题,如果后面还有想到的,再另文撰写。希望本文能都对各位朋友有一定的启发和帮助。
扫码关注“医咖会”公众号,及时获取最新重磅研究!
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)