注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

样本量大于30,就可以认为是正态了吗?

临床研究

1970-01-01      

4289 0

文章来源:“小白学统计”公众号,感谢作者授权。

 

好多学生或临床医生都问过我:样本量大于30或50是不是就不用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去好好看书去,或者,哪个老师跟你这么说的。

 

统计学中确实有一个中心极限定理这个词。但是这个定理不是教你说,样本量大于30就认为是正态分布了。其实这个定理说的是统计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最少读3遍。

 

所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就是把原始数据列个频数表,细化了就成了分布了。

 

可是统计量怎么有分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可以有多个统计量,那就有分布了。

 

比方说,有下面这样一份数据。一共1000个数值,它的分布如下:

 

 

这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的值更多一些,右边大的值没有几个。

 

对于这样一份数据,我可以将它作为一个总体,也就是说,总体数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以抽好多次。假定我抽了100次,这样就得到100个样本(注意100个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例数才是样本量)。这100个样本,每次抽样可以抽取2个数,也可以抽取10个数,还可以抽取100个或几百个,都可以。

 

假定我做100次抽样,每次抽样只抽取2个数,这样每个样本我可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均值),这样就得到100个均值,我把这100个均值画个分布图,它是这样的:

 

 

看起来是不是跟原始数据的分布形状差不多啊?

 

那我们再次重新抽样,还是抽100次,不过这次每次抽10个数,这样就得到100个样本,每个样本有10个数。这时候再对每个样本的10个数计算均值,也得到100个均值,把这100个均值画个分布图,它是这样的:

 

 

是不是看起来好像跟原始数据的形状长得不一样了?

 

如果再次重新抽样,还是抽100次,这次每次抽50个数,再对每个样本中的50个数计算均值,再次得到100个均值,把这100个均值画个分布图,它是这样的:

 

 

有没有觉得这个图有点眼熟了?看起来像是个正态分布了。

 

把上面3种情形总结一下

 

对于一个非正态的总体进行多次抽样的话,如果每次抽样的例数很少(如2个数据),这时候抽取的多个样本计算的均值,其分布仍然是偏态的。

 

随着每次抽样的例数增多(如10个数据),将多个样本计算的多个均值绘制分布图的话,就逐渐接近正态分布。

 

当样本量足够大的时候,基本就接近正态分布了。那这个样本量到底在多大的时候才算跟正态分布接近了呢?以前统计学家已经验证过了,大于30的时候,差不多就很接近了;大于50的时候,基本可以认为是正态分布了。

 

其实这个中心极限定理说的是:不管原始数据的分布是什么样的(可能是正态,也可能偏态,还可能超级变态),如果从这个原始数据中多次抽样的话,对于每个样本计算出统计量(如均值),如果每个样本中的例数大于30,这些统计量的分布接近正态。而不是说:一个样本中的原始数据的个数大于30,这个原始数据的分布接近正态。

 

可惜,统计学中(当然生活中也是)总是充满了各种以讹传讹,到最后就变成了听风是雨。如果课堂上老师讲不清楚,那到了学生的头脑中,就变成了:只要数据大于30,我就不用做正态性检验了,我就可以理直气壮地用t检验、方差分析了。

 

说了一堆理论,最后下个结论:哪怕你例数是1000、10000,该不服从正态分布依然还是不服从正态分布。不要错把冯京当马良,以后审稿人建议你检查正态性的时候,千万别再说:我的数据大于100,不用做正态性检验。



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • 做Meta分析,警惕生产"医学假新..
  • 相爱相杀的置信区间和p值..
  • 那么多变量,我该选择哪些进入统..
  • 从“找男朋友”中理解统计学中的..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94