1970-01-01
文章来源:“小白学统计”公众号,感谢作者授权。
好多学生或临床医生都问过我:样本量大于30或50是不是就不用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去好好看书去,或者,哪个老师跟你这么说的。
统计学中确实有一个中心极限定理这个词。但是这个定理不是教你说,样本量大于30就认为是正态分布了。其实这个定理说的是统计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最少读3遍。
所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就是把原始数据列个频数表,细化了就成了分布了。
可是统计量怎么有分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可以有多个统计量,那就有分布了。
比方说,有下面这样一份数据。一共1000个数值,它的分布如下:
这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的值更多一些,右边大的值没有几个。
对于这样一份数据,我可以将它作为一个总体,也就是说,总体数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以抽好多次。假定我抽了100次,这样就得到100个样本(注意100个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例数才是样本量)。这100个样本,每次抽样可以抽取2个数,也可以抽取10个数,还可以抽取100个或几百个,都可以。
假定我做100次抽样,每次抽样只抽取2个数,这样每个样本我可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均值),这样就得到100个均值,我把这100个均值画个分布图,它是这样的:
看起来是不是跟原始数据的分布形状差不多啊?
那我们再次重新抽样,还是抽100次,不过这次每次抽10个数,这样就得到100个样本,每个样本有10个数。这时候再对每个样本的10个数计算均值,也得到100个均值,把这100个均值画个分布图,它是这样的:
是不是看起来好像跟原始数据的形状长得不一样了?
如果再次重新抽样,还是抽100次,这次每次抽50个数,再对每个样本中的50个数计算均值,再次得到100个均值,把这100个均值画个分布图,它是这样的:
有没有觉得这个图有点眼熟了?看起来像是个正态分布了。
把上面3种情形总结一下:
对于一个非正态的总体进行多次抽样的话,如果每次抽样的例数很少(如2个数据),这时候抽取的多个样本计算的均值,其分布仍然是偏态的。
随着每次抽样的例数增多(如10个数据),将多个样本计算的多个均值绘制分布图的话,就逐渐接近正态分布。
当样本量足够大的时候,基本就接近正态分布了。那这个样本量到底在多大的时候才算跟正态分布接近了呢?以前统计学家已经验证过了,大于30的时候,差不多就很接近了;大于50的时候,基本可以认为是正态分布了。
其实这个中心极限定理说的是:不管原始数据的分布是什么样的(可能是正态,也可能偏态,还可能超级变态),如果从这个原始数据中多次抽样的话,对于每个样本计算出统计量(如均值),如果每个样本中的例数大于30,这些统计量的分布接近正态。而不是说:一个样本中的原始数据的个数大于30,这个原始数据的分布接近正态。
可惜,统计学中(当然生活中也是)总是充满了各种以讹传讹,到最后就变成了听风是雨。如果课堂上老师讲不清楚,那到了学生的头脑中,就变成了:只要数据大于30,我就不用做正态性检验了,我就可以理直气壮地用t检验、方差分析了。
说了一堆理论,最后下个结论:哪怕你例数是1000、10000,该不服从正态分布依然还是不服从正态分布。不要错把冯京当马良,以后审稿人建议你检查正态性的时候,千万别再说:我的数据大于100,不用做正态性检验。
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)