1970-01-01
在精心设计并辛苦完成试验后,完美而专业地展示你的结果与数据,才能使你的研究获得应有的价值,为你的全部工作画上完美的句号。
在此,根据《Journal of the American College of Cardiology》上发表的文章《Making Sense of Statistics in Clinical Trial Reports: Part 1 of a 4-Part Series on Statistics for Clinical Trials》[1],我们精心准备了一个系列,来全面而具体地说明各种类型数据与结果的正确总结与展示方法。
上一篇文章中,我们介绍了基线数据、试验信息以及结局数据中二分类频数资料的展示方法,本期将接着聊聊计量资料和时间-事件数据如何进行分析描述以及注意事项。
一、计量资料的结果展示
1. 单个时间点的组间均值比较
在分析定量结局指标时,一般比较常见的分析策略就是直接比较不同干预组结局指标的组间差异。然而,考虑到多数情况下这些结局指标都会在基线时被测量,一个更加合理的方法是比较结局指标相对于基线的平均变化值。
但是这里也同样存在一个Bug——这种变化值往往会受到基线水平的影响,比如我们常说的“向均数回归(regression to the mean)”——在同等的干预条件下,那些结局指标基线水平比较高的研究对象可能会获得更大的下降。为了解决这样问题,就需要另一种统计学分析方法——协方差分析(ANCOVA),即在比较结局指标变化值时调整其基线水平。
来看一个实例,SYMPLICITY HTN-3研究[2]是一项随机、双盲、假手术对照试验,共招募 535 例严重难治性高血压患者,按照 2:1 进行随机分组,分别进行去肾交感神经术或假手术治疗。研究主要终点为治疗6个月时患者收缩压(SBP)下降。
如表1所示,首先进行去肾交感神经术和假手术治疗组6个月时SBP的组间比较,其次在比较两组SBP 6个月的变化值时考虑是否调整其基线水平。可以比较明显地看到第一种组间比较得到的95%CI比后两种情况更“宽”,而在调整了SBP基线水平的第三种情况比较时95%CI最“窄”。
比较遗憾的是,上述95%CI仍跨越“0”,即组间差异无统计学意义。提示去肾交感神经术与假手术相比并未减少难治性高血压患者的6个月时收缩压水平。
调整SBP基线水平真的有必要吗?图1中去肾交感神经术和假手术治疗组两条回归线显示,两组中基线SBP水平较高的研究对象,6个月后SBP下降值也更大。如果不进行SBP基线水平调整,实际的效应值可能会被错误估计(4.07 vs. 4.11adjusted mmHg)。
此外,从图1中也可以明确另一点,即不同研究对象的研究结果差别很大,这也是为什么临床试验通常需要纳入足够的研究对象(样本量太少,结果可能并不稳定)。
细心的小伙伴可能会提另外一个问题,实际分析中是选择结局变化的差值,还是选择相对于基线水平的变化百分比?从统计上讲,这时候就要看哪种情况更适合使用协方差分析。详见:手把手教你协方差分析的SPSS操作!
2. 多个时间点计量数据的分析与结果展示方法
以上我们讨论了,如何利用结局指标的基线数据来使干预措施的临床疗效估计更为合理。实际上,很多时候一个临床研究在设计数据收集时,往往不会只收集开始(基线)和结束(随访终点)两个时间点的数据。当遇到结局指标多个时间点数据时,就需要采取不同的方法,当然也取决于研究目的。
① 两组均值随时间的变化趋势
多个时间点的计量数据可以以时间为横坐标、指标数值为纵坐标绘制折线图展示,下图为一项研究的结果图,每个时间点都描绘了均值与标准误(图2)。
② 不同下降率(或升高率)的组间比较
许多研究的结局指标中,后续时间点较基线时的变化数值所占百分比(下降率或升高率)具有重要的临床意义,比如在呼吸系统功能损伤的研究中用力肺活量的下降率,此时可计算不同时间点的结局指标下降率或升高率,再进行组间比较及后续分析。
③ 在随访过程中某一特定时间点的独特价值
如在18个月时检测糖化血红蛋白来评价一种糖尿病药物的疗效,这样的情况下,特定时间的数据应着重分析。
因为多个时间点的计量资料往往存在相关性,不同于一般的统计分析方法(要求各数据彼此相互独立),此时应该选择重复测量分析。[详见:SPSS:单因素重复测量方差分析]
3. 计量资料呈偏态分布的分析方法
有时候计量资料的数据呈偏态分布,此时组间均值比较的传统分析方法可能受一些极端值的影响而扭曲,此时可以选择如下的处理方法:
① 采取合适的数据转换
例如,将原始数值取自然对数后,数据呈正态分布,此时采用几何均数来进行组间差异的比较。
② 使用非参数检验
非参数检验中,比较常用的是采用中位数对两组疗效进行描述,并用非参数方法(例如常用的秩和检验)对组间疗效差异进行分析可避免极端值的影响。
③ 设定特定的临界值,将原来的连续性变量转换为二分类变量
例如,计算超过肝脏功能指标上限数值的人数占总人数的百分比,这时采用卡方检验比较组间的百分比有无差异即可。
二、时间-事件类资料的结果展示
很多临床研究中的主要结局指标都是时间-事件类资料(time to event outcomes)。PLATO研究[4]是一项旨在明确替格瑞洛相比于氯吡格雷是否可降低急性冠状动脉综合征患者再发血栓事件风险的Ⅲ期临床试验。主要研究终点为包括心血管死亡、心肌梗死或卒中在内的复合终点。
图3中K-M曲线显示,替格瑞洛的结局事件累积发生率明显低于氯吡格雷,似乎是替格瑞洛的疗效更好,但是K-M曲线并没有提供一个估计两组疗效差异的简单指标。
当然,可以得到在随访终点(1年)时的两组各自结局事件累积发生率(替格瑞洛9.8% vs. 氯吡格雷11.7%),貌似也是一个证明替格瑞洛疗效优于氯吡格雷的证据。如果一个人被成功随访了1年,选择替格瑞洛治疗似乎是一个更好的选择,但是考虑到该研究中只有1/2的患者被随访了1年,上面提到的证据就有些尴尬了。
相反地,最常用的方法是大家熟知的Cox等比例风险回归模型,计算风险比(HR)及其95%CI。仅从纯统计的角度,是可以计算出不同时点的两组HR,但是更常用的方法还是计算整个随访期间的HR,用于比较两组整体疗效。HR与RR比较相似,唯一不同是前者考虑了随访时间。
在上述的例子中HR=0.84 (95%CI: 0.77-0.92),提示与氯吡格雷相比,替格瑞洛主要结局事件的发生风险较低(替格瑞洛疗效还不错)。
对于听到概率或者风险就头大的人来说,上述例子也可以表述为两组主要结局事件发生数分别为864和1014,比例为864/1014=0.852(非常接近HR),但是前提是研究对象必须被1:1随机分配到两组,并且结局事件发生率比较低。
HR比较适合用于K-M曲线图中不同干预组的差别比较稳定,也就是说两组K-M曲线不交叉的情况下(如图3)。但是,在一些临床试验中(特别是评价不同术式的临床疗效),一种干预可能在早期无法带来获益,有时甚至是危害,但是长远来看,反而会获益。
举个例子,FREEDOM研究[5]旨在比较冠状动脉旁路移植术(CABG)与经皮冠状动脉介入治疗(PCI)对于糖尿病合并多支病变的冠心病患者的获益情况。主要结局是复合终点,包括死亡、心肌梗死或卒中。
如图4所示,随访前6个月CABG组终点事件累积发生率高于PCI组(主要是由于CABG组卒中患者显著增加)。如果随访仅仅到此,CABG可能会被认为疗效不如PCI(HR>1),推广意义不大。但是在随访1年左右时,两组的生存曲线出现了交叉。如果关注5年的复合终点的累积发生率(CABG 18.7% vs. PCI 26.6%),可以观察到CABG组疗效明显优于PCI组(HR<1)。
该研究也存在一定的问题,即只有1/3的研究对象成功随访了5年,另外2/3的研究对象结局怎样,是否会影响到整个结果的解读,仍需要进一步研究确认。最重要的是,在上述例子中单纯依赖于HR来评价不同干预组疗效好坏仍存在一定的局限性。这时候需要其他指标来帮助我们比较不同干预组的疗效差别,比如说,限制性平均生存时间(Restricted Mean Survival Times,RMST),详见:Cox回归中,等比例假定不满足,该怎么衡量治疗效果?
HR的另外一个局限在于仅从K-M曲线的“纵向”解读结果,即某个时点两组结局事件累积发生率的比值。但是,在一些慢性疾病中,“横向”关注结局发生时间的早晚可能会更加恰当。
加速失效时间模型(accelerated failure time model, AFT model)[6]是解决这类问题常用的统计模型,不同于Cox回归,该模型研究协变量与对数生存时间之间的回归关系,常用效应值是时间比(time ratio)。简单说,两组时间比为1.5,说明试验组研究对象相比于对照组发生结局的时间可以平均延后50%。
举个例子,EMPHASIS-HF研究[7]旨在评价依普利酮对于轻度心衰患者的生存获益,主要结局为复合终点,包括心血管病所致死亡或因心衰住院。如图5所示,复合终点累积发生率达到10%时,依普利酮和安慰剂组对应的随访时间分别为0.84年和0.40年,时间比为2.10;复合终点累积发生率达到20%时,随访时间分别为 2.02年和1.09年,时间比为1.86。
终点事件的不同累积发生率,可以计算出不同的时间比,利用AFT模型可以计算这些时间比的平均值,最终的时间比为1.71(1.38-2.11),依普利酮可以提高轻度心衰患者的生存率。
看到这里,可能有小伙伴会问前面方法有点儿复杂,有没有更简单的方法。当然有,一个可替代的更简单的方法是计算整个随访期间内主要结局事件的发生率:对于依普利酮和安慰剂组分别是10.60/100人年和15.47/100人年,相应的比例是0.69。因为一个事件的发生率在整个随访期间是相对稳定的,所以这种粗略方法结果还算稳定。
但是也需要注意,很多疾病在早期随访过程中发生率更高,这时候这种粗略的方法就不太恰当了,需要采用合适的统计学方法。
参考文献:
1. J Am Coll Cardiol. 2015; 66:2536-49
2. N Engl J Med. 2014; 370:1393–401.
3. N Engl J Med. 2014; 371:993–1004
4. N Engl J Med. 2009; 361:1045–57
5. N Engl J Med. 2012; 367:2375–84
6. Stat Med. 1992; 11:1871–9
7. N Engl J Med 2011; 364:11–21
扫码关注“医咖会”公众号,及时获取最新统计教程!
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)