2019-10-25
统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁明了,但是面对多种多样的统计图,你真的会用吗?在《Heart》杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。
假如一张统计图只需要展示一个变量,比如一组病人的某个体检指标,这属于单个变量的数据。变量又可以分为连续变量和分类变量。对于连续变量来说,统计图可以展示出数据的范围、分布,以及一些统计量,如均数、中位数、样本量等。
单个连续变量的数据
对于小样本量数据(如n<30),建议使用点图(Dot chart),点图可以绘制出沿着一个轴分布的观测值,假如这些点都不重合的话,采用点图可以清楚地看到每个值的分布,如图1(A)。
当出现许多相同的观测值时,可以使用堆栈式点图(Stacked dot chart),通过将相同的观测值竖直堆砌,可以清楚地看出观测值的重复性,如图1(B)。
对于50 总的来说,对于小样本或中等样本量的数据,点图比箱式图(Boxplot)更合适。 而对于大样本量数据来说,数据点太密和太小的问题显然是无法避免的,但是对于大样本来说,个体的某个观测值也不会太影响结果的解释,因此可以直接描述数据的范围和分布,而不用必须展示出每个观测值。具体可采用直方图(Histogram),见图3(A);小提琴图(Violin Plot),见图3(B);和箱式图,见图3(C)。 直方图和箱式图大家都比较熟悉,而对小提琴图可能不是太了解。小提琴图既能展示所有数据的密度分布,又能标示出均值和四分位数,能同时展现出数据的多面信息。 这三个统计图各有优劣。直方图和小提琴图都可以展现中间的数据分布特征,而箱式图则不能,且箱式图会突出展示离群值,而对于大样本量的数据来说,离群值的存在是很常见的,突出它们的存在可能会引起一些不必要的怀疑;小提琴图和直方图相比,能更好的看出整体数据的分布情况,而直方图往往会让人只注意到最高点;在灵活性方面,小提琴图和箱式图比直方图要好一些,沿纵轴和横轴都可以应用。 单个分类变量的数据 对于分类变量,如性别,统计表其实就可以简单直接的展示数据频数、比例等,但是如果想要突出这一变量的重要性的话,用统计图会更合适。对于二分类变量的展示来说,无论样本量大小,都可以使用堆栈式条形图(Stacked bar chart)或者比例点图(Dot chart of proportion),见图4(A)和(B)。同样的,多分类变量也可以使用堆栈式条形图或者比例点图来实现,见图4(C)和(D)。 参考文献 1. Heart. 2016;102:349-55. 扫码关注“医咖会”公众号,及时获取最新统计教程!
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)