1970-01-01
文章一开始,我们一起来看一个临床试验中常见的设计。
我们想知道一种新药A能否改变患者的住院天数。在没有确切信息的时候,我们的假设是不能,也就是使用A和不使用A的两组的平均住院天数相同。换句话说,使用A对于患者住院天数没有影响。我们设计了一个随机对照试验(RCT),把200名患者1:1随机分入A组(使用新药)和B组(使用安慰剂),每组100人。
试验结果中,A组患者平均住院天数为25.1天,B组为27.6天。进行双样本t检验后,得到了p值为0.015。
那么,单看这个p值,下列理解哪些是正确的呢?
A. 有1.5%的概率,使用A对于患者住院天数没有影响;
B. p = 0.015 意味着两组平均住院天数有很大不同(即效应值很大);
C. p = 0.015 意味着使用A和患者住院天数的关联度很高;
D. 若 p > 0.05,则意味着没有治疗效果。
-------------------------------------------
实际上,这4个选项都是错的!让我们一个个来解释。
A 选项
一句话解释:p值只是假设和数据的关系
首先,我们来明确一下p值的定义。
美国统计学会(American Statistical Association, ASA)明确告诉我们:
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)
p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“使用A对于住院天数没有影响”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题。
因此,p=0.015的含义是,如果我们的假设是正确的(即使用A对于住院天数没有影响),那么我们在这一次临床试验中得到平均住院天数差为2.5天这个结果,甚至于更极端(大于2.5天)的概率是0.015。
(p值描述的是:如果原假设是正确的,我们得到某次观测值甚至更极端的值的概率。来源:wikipedia.com,获取日期:2017/6/30)
B 选项和C 选项
一句话解释:显著≠重要
如果A能显著地缩短住院时间2天,而和B在其他方面差不多,那么我们真应该使用A药替换B药么?我们要考虑的当然是住院时间本来是多久:如果住院时间原本是5天,那缩短2天则是很好的结果;但是如果住院时间原本是30天呢?甚至,如果是365天呢?
我们先来回顾一下“效应值”的概念。效应值(effect size,是对于试验效果描述的统计量)通常表示不同的处理下总体均值差异的大小。比如,在我们的例子中,A组和B组住院天数所相差的2.5天就是对于该试验效果的一个估计值。
效应值是一个和p值同样受欢迎的统计量,这是因为一个更大的效应值意味着更好的效果,这说明新药更加有效。比如对于例子中的新药A,我们乐于看到A组能平均缩短2.5天的住院天数,甚至是3.5天、4.5天,甚至更多。同时,p值受样本量影响非常大,而观测到的效应值则相对受样本量影响较小,因此比p值更加“稳定”。
(我们应该同时汇报p值和effect size。来源:the Lovestats Blog,获取日期:2017/6/30)
然而,正是由于样本量大小对于p值和效应值的影响不同,效应值的大小不一定与p值相关。在某些情况下,两个类似的研究尽管有截然不同的效应值,也可能得出相近的p值。也因此,p值也不能说明使用A和住院天数的关联度大小。
D 选项
一句话解释:p值 > 0.05只说明还没找到有效的证据,而不意味着无效
Absence of evidence is not evidence of absence
前面选项错在过度解读了“p值显著的结果”,而这个选项则错在过度解读了“p值不显著的结果”。在上面的例子中,p若大于0.05只能说明没有找到A药有缩短住院天数的证据,而不是A不能缩短住院天数的证据。当然,许多媒体也会犯这一类的错误。
(《美国科学院最新报告:转基因食品对人无害》,来源:163.com,获取日期:2017/6/30)
比如上面这篇报道,正文第一句写的是“没有证据表明转基因农作物对人类或环境有害”,而标题却被改为了“转基因食品对人无害”。
其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。在“无关联”的假设下,只要p值小于1,数据中就包含了某些联系,所以我们也需要关注试验的效果(效应值)来得出结论。同时,p>0.05只意味着没有找到可信服的证据。然而,这不意味着已经检验了所有的证据,也不意味着每个人都会同意所得出的结论。比如,我们若增加样本量,或者提高测量的精度,都有可能得到显著的结论。
总之,更小的p值并不意味着更大的效应值或者更显著的结果。
p值的正确应用
最后,我们谈两句该如何应用p值。
在实际的统计分析中,很多科研人员把p值是否小于0.05看作研究结论的“试金石”,为了得到看起来显著的结论,有些研究者会进行所谓的 p-hacking (p值操纵),即有意或无意地尝试操纵数据,直至p值小于0.05,并隐藏其他“不显著”的结果,从而导致报告偏倚(reporting bias)。甚至,美国最大的在线俚语词典 urban dictionary 都收录了这个词,并且给出了例句。
(来源: urbandictionary.com,获取日期: 2017/6/30)
从1990年到2014年,在摘要中报告p值的生物医学类文章的比例从7%上升到了15%,而且几乎都报告了至少一个p值<0.05。2016年,美国统计协会(ASA)终于看不下去了,给出了p值应用的6大理解概念和注意事项。在这篇文章中,ASA特意提醒科研人员,不应该选择性报告p值和相关的分析。
在这里,给大家一些建议:
1. 在进行模型建立以及数据分析时,应当全面进行系统评价(systematic review)和Meta分析,全面结合不同的研究结果进行参考。
2. 试验设计应当考虑多种因素,比如暴露(exposure)和结局(outcome)测量时的效度和信度、之前的研究结果以及我们假设的可信度等。没有任何的统计学方法能够弥补一个错误的研究设计所带来的影响。
3. 更加关注效应值而非p值,确定所研究的干预到底有多大的效果。
4. 明确结果的不确定性,比如p值究竟是小于0.05、0.01,还是更小?同时,也应该关注标准差、置信区间和误差范围等统计量,这样才能知道我们的结果的精确程度。(关于置信区间和p值的关系,敬请关注后续文章:《置信区间和p值,到底谁说了算?》)
参考文献
1. http://statistically-funny.blogspot.com/2013/06/studies-of-cave-paintings-have-shown.html
2. http://blogs.plos.org/absolutely-maybe/2016/04/25/5-tips-for-avoiding-p-value-potholes/
4. J Anaesthesiol Clin Pharmacol. 2016;32(4):421-3.
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)