注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

描述两个或多个变量,选啥统计图?(多图示例)

临床研究

1970-01-01      

3906 0

统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁、明了,但是面对多种多样的统计图,你真的会用吗?英国医学杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。 

 

上一期,我们介绍了第一部分:“单个变量的数据”,本期接着讲涉及两个及多个变量的设计图。

 

一、比较两个变量的图表

 

其实我们介绍过的描述单变量的统计图,如点状图(dot chart)、小提琴图(Violin Plot)、堆栈式条形图(Stacked bar chart),同样适用于描述两个变量,通常表现为因变量/结局变量随自变量/协变量的分布。同样的,根据变量不同的类型来决定选用哪种统计图。

 

1. 连续变量VS分类变量

 

当结局变量为连续变量,协变量为分类变量时,建议使用多重点状图(Multiple dot charts)、多重堆栈式点图(Multiple stacked dot plots)和多重小提琴图(Multiple violin plots),见图5。

 

 

由于使用同一个Y轴,不同组可以直接进行比较。在多重堆栈式点图和多重小提琴图中,图形的宽度可以表示样本量大小。如果分组变量是有序的,那么统计图的分组也要按顺序排列。

 

不建议将组间比较的检验结果标在图上,如*代表P<0.05,**代表P<0.01,因为这可能会将读者把注意力放在检验的P值是否显著上,而不是原始数据的差异上(如均值差异等)。P<0.05只是一个人为的阈值判断,不应该成为结果的全部。并且当同时进行多组间比较的时候,星号标记会比较混乱。

 

2. 连续变量VS连续变量

 

当结局变量为连续变量,协变量也为连续变量时,对于小到中等样本量的数据来说,建议使用散点图,同点图一样,建议使用空心圆作图。在散点图的基础上可以添加二者的回归线和95%置信区间,如图6(A)。

 

回归线可以揭示二者间可能存在的相关趋势,但如果二者的关系不是线性的,如存在U型关联,则线性回归可能不合适。而对于大样本量的数据来说,做直线回归可能不合适,建议做样条化回归,使回归线更光滑,同样可以包含95%置信区间,如图6(B)。

 

3. 分类变量VS分类变量

 

如果只涉及二分类变量,不论样本量大小,列联表就完全可以用来描述二者的关系。对于结局变量为有序分类变量,协变量为无序分类变量的数据,可以使用马赛克图(Mosaic plot),如图7(A)。

在图中,每种颜色的柱高表示该自变量分类在每个结局变量分类中的比例,如西班牙裔收缩压≤110mmHg的比例为0.38左右,110-140mmHg的比例为0.52左右,140-250mmHg的比例为0.10左右。由于结局变量是有序的,我们还可以看出结局变量的累积频率。柱形的宽度与协变量组内的观测数成正比,面积代表绝对数。

 

如果结局变量是无序的,或顺序对研究不重要,使用多重点状图(Multiple dot plot)可能比较合适,如图7(B)。从图中可以清晰地读出发生每个结局的比例,并且可以比较协变量组内各个结局发生的比例,以及组间发生某个结局的比例,但不像马赛克图中每个协变量组的宽度能反映观测数,从多点图中不能看出每个协变量组的相对计数。

 

如果要描述两次测量的一致率,马赛克图就不是很合适了,建议使用波动图(Fluctuation diagram),如图8所示。

但是马赛克图和波动图都不好在原始数据的基础上添加置信区间、点估计值和其他统计量,建议用文字或其他图表来展示这些统计量。

 

4. 分类变量VS连续变量

 

对于二分类结局变量来说,可以用散点图来描述结局变量和协变量的关系,在此基础上可以添加logistic回归模型的结果,如图9(A),同样的,对于大样本量数据可以进行样条回归,如图9(B)。

 

 

二、阐述多个变量的图表

 

对于阐述在第三个变量的不同水平下(几个取值),协变量和结局的关系,可以用彩色的点和线来区分不同分层。在此推荐免费的配色网站:Colorbrewer(http://www.colorbrewer2.org/),可以根据数据类型生成配色方案。

 

如果不想用彩色的话,可用不同形状标志(方形、圆形)来区分点,用实线、虚线来区分线。对于如何正确的选择形状标志,作者Krzywinski在他的文章中有详细的讲解。

 

对于单个分组的数据来说,选用空心图形能清晰地展示数据,像我们之前提过的;对于多分组数据来说,可以使用不同形状和颜色的图形进行区分,但要选对比强烈的图形,如图10所示;另外,如果可以的话最好能在图上就能明确的分辨出信息的重要性,以减少对比看图例的不便,如图11所示。当然,分组越多,图形也就会越多,读者也会更难分辨,所以研究者还须尽量将分组控制到最少。

(图片10和图片11来源:Nat Methods. 2013; 10:451. )

 

如果第三个变量是连续变量的话,可能需要用三维立体图来展示,但这无法表现在纸面上。因此通常还是会将数据用别的统计图来表示,常用的是多重点状图(Multiple dot plot)或分组条形图(Grouped bar chart),做法是将第三个变量变成了分类变量,分多个图展示不同结局的结果,如图12展示了种族、年龄和收缩压>120mmHg的关系。

 

 

这些图表都可以用R软件实现,但是不论用哪个软件制图,都要考虑以下几点:尽量提供坐标轴标签、并且图中要有相应的图例,制图的时候根据图表最终所占页面大小来设置字体大小。

 

参考文献

1. Heart. 2016;102:349-55. 



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • Stata实例教程:泊松回归..
  • 论文中“研究对象纳入与随访”可..
  • 论文中分组隐匿和盲法犯的那些错..
  • Stata详细教程:Cox回归和比例风..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94