医微客 - 样本量大于30，就可以认为是正态了吗？

样本量大于30，就可以认为是正态了吗？

临床研究

1970-01-01

4518 0

文章来源：“小白学统计”公众号，感谢作者授权。

好多学生或临床医生都问过我：样本量大于30或50是不是就不用做正态性检验了？而且一本正经地说，这是统计书上说的，有的则说，这是老师说的。有的说的更专业了：这是根据中心极限定理，当样本量大于30的时候，就接近正态了。凡此种种，我只能说，回去好好看书去，或者，哪个老师跟你这么说的。

统计学中确实有一个中心极限定理这个词。但是这个定理不是教你说，样本量大于30就认为是正态分布了。其实这个定理说的是统计量的分布，而不是原始数据的分布。仔细体会一下上面这句话，最少读3遍。

所谓统计量，那当然就是根据一份抽样数据计算出的一个指标，可能你要说，这怎么会有分布呢？原始数据有分布我还可以理解，就是把原始数据列个频数表，细化了就成了分布了。

可是统计量怎么有分布呢？一份数据不就只能计算一个统计量吗（如均值、标准差）？不错，一份数据是只有一个统计量，可是，如果有多个样本，那就可以有多个统计量，那就有分布了。

比方说，有下面这样一份数据。一共1000个数值，它的分布如下：

这个数据大家一看很清楚，这是一个明显的偏态数据，左边小的值更多一些，右边大的值没有几个。

对于这样一份数据，我可以将它作为一个总体，也就是说，总体数据本身就是偏态的。对于这样的总体，我可以从中抽样，而且可以抽好多次。假定我抽了100次，这样就得到100个样本（注意100个样本不是指100个数据，一个样本是指一次抽样，每个样本中的例数才是样本量）。这100个样本，每次抽样可以抽取2个数，也可以抽取10个数，还可以抽取100个或几百个，都可以。

假定我做100次抽样，每次抽样只抽取2个数，这样每个样本我可以计算一个均值（虽然只有2个数，仍然可以算这2个数的均值），这样就得到100个均值，我把这100个均值画个分布图，它是这样的：

看起来是不是跟原始数据的分布形状差不多啊？

那我们再次重新抽样，还是抽100次，不过这次每次抽10个数，这样就得到100个样本，每个样本有10个数。这时候再对每个样本的10个数计算均值，也得到100个均值，把这100个均值画个分布图，它是这样的：

是不是看起来好像跟原始数据的形状长得不一样了？

如果再次重新抽样，还是抽100次，这次每次抽50个数，再对每个样本中的50个数计算均值，再次得到100个均值，把这100个均值画个分布图，它是这样的：

有没有觉得这个图有点眼熟了？看起来像是个正态分布了。

把上面3种情形总结一下：

对于一个非正态的总体进行多次抽样的话，如果每次抽样的例数很少（如2个数据），这时候抽取的多个样本计算的均值，其分布仍然是偏态的。

随着每次抽样的例数增多（如10个数据），将多个样本计算的多个均值绘制分布图的话，就逐渐接近正态分布。

当样本量足够大的时候，基本就接近正态分布了。那这个样本量到底在多大的时候才算跟正态分布接近了呢？以前统计学家已经验证过了，大于30的时候，差不多就很接近了；大于50的时候，基本可以认为是正态分布了。

其实这个中心极限定理说的是：不管原始数据的分布是什么样的（可能是正态，也可能偏态，还可能超级变态），如果从这个原始数据中多次抽样的话，对于每个样本计算出统计量（如均值），如果每个样本中的例数大于30，这些统计量的分布接近正态。而不是说：一个样本中的原始数据的个数大于30，这个原始数据的分布接近正态。

可惜，统计学中（当然生活中也是）总是充满了各种以讹传讹，到最后就变成了听风是雨。如果课堂上老师讲不清楚，那到了学生的头脑中，就变成了：只要数据大于30，我就不用做正态性检验了，我就可以理直气壮地用t检验、方差分析了。

说了一堆理论，最后下个结论：哪怕你例数是1000、10000，该不服从正态分布依然还是不服从正态分布。不要错把冯京当马良，以后审稿人建议你检查正态性的时候，千万别再说：我的数据大于100，不用做正态性检验。

百度浏览来源 : 医咖会