1970-01-01
近年来,关于“statistical significance(统计显著性)”和P值的争议一直存在。前段时间,《Nature》发表了一篇题为《scientists rise up against statistical significance》的文章,《美国统计学家》也专门发布了一个针对P值的专刊。感兴趣的可以查看:放弃"统计显著性(P<0.05)"的时代,已经到来了吗?
近日,《欧洲心脏病杂志》(EHJ)发表了一篇专家观点,再次针对“统计显著性”发表了自己的观点,到底是降低P值,还是抛弃统计显著性,我们来看看这位专家持怎样的态度。
几十年来,论文中都基于p<0.05来声明具有“统计显著性”。然而,很多专家也发现,有些论文中的统计学意义和临床意义并不相符,p值的滥用问题很严重。2016年,美国统计协会(ASA)曾针对这些误用发表了共识(表1)。
表1. ASA关于P值的主要声明要点
方法学专家在核心问题上意见一致,但在许多关键细节上仍然存在分歧,更重要的是,在如何最好解决“统计显著性”问题上也存在分歧。理想情况下,所有学科都需要全面了解统计工具、注意事项和如何正确解读结果。然而,提高所有学者、临床医生甚至普通大众的统计素养需要长期的努力。
最常见和严重的误解是,“P< 0.05”就表示效果“是真的”,甚至“很重要”。目前大多数达到P<0.05的研究,并不太可能反映真实的因果效应,更不用说重要效应。大多数研究都存在偶发性或偏倚,可能很少真的具有临床重要意义且值得采取措施。
还有一个误解是,P≥0.05就必然意味着“不是真的”或“不存在差异”。小型研究可能就无法发现真正的差异性。如果偏倚削弱了估计值,即使是大型研究也可能会遗漏一些真正的差异。在某些领域,尤其是社会科学领域,有人认为不管差异多么小,也总是存在差异的。还有另一种学派主张,大多数经过检验的关联和效果很可能实际上是无效的。
前段时间,有学者针对文献都陷入“统计显著性等同于P< 0.05”这一困境,提出了两个解决办法。
其中一个建议是保留统计显著性,但要增加达到统计学显著性的难度 [PMID:30980045 ]。对于仍使用P< 0.05这个阈值的研究,该建议将统计显著性阈值改为P<0.005。这降低了“假阳性”,但增加了“假阴性”。如果“假阳性”确实相比“假阴性”是一个更严重且常见的问题,那么这种方法看起来合理。调低p值可能会给研究人员带来压力,迫使他们进行大规模(或许研究设计会更细致)的研究。
如果一个研究是评估不太可能发生的事件,P< 0.005可能仍然不足以保证真实性。此外,还有人担心,许多研究人员可能会更加偏激,强行使P值达到<0.005。尽管如此,这种使用P<0.005的方案还是比较简单,可以应用于已发表的和未来的研究,也可以迅速去除大量没有研究价值、没有临床意义的方向。
另一个解决办法是完全放弃“统计显著性”和任何“显著/非显著”的概念[PMID:30894741]。这种禁止“统计显著性”的概念但又保留P值的建议可能是不明智的,如果没有任何预先制定好的规则,任何研究人员都可能以对自己有利的方式来解释任何结果。
虽然“零假设”显著性检验常常被误用,但如果正确使用,按照预先制定的分析计划来处理研究问题,仍然是很有价值的,可以帮助排除掉“无意义”的结果。这在很大程度上取决于事先制定整个排除计划时考虑得有多仔细。对于许多临床研究,例如随机试验,是需要有预先定好的规则的。
EHJ文章中报告P值的情况
本文作者检索了欧洲心脏病杂志(EHJ)2018年发表的所有文章,检索出摘要中使用了“significant”这个词的文章。最终有62篇文章被纳入(表2)。只有11篇论文使用该词来指代临床意义,3篇论文明确写的是统计显著性(statistical significance),49篇论文是通过一个假设的统计推断间接提到了“significant/significance”。
表2. EHJ杂志中使用术语“significance”的文章
62篇论文的摘要中,37篇至少报告了一个p值,62篇总共报告了141个p值,其中86%的p值<0.05。96%的摘要中至少有一个p值<0.05。
在P< 0.05的论文中,36%会写结果具有“提示性(suggestive)”,除非P< 0.005,否则不会提到统计显著性(statistical significance)。
许多P值是用截断值(cut-offs)来报告的,而不是精确值,如141篇论文中有13篇为P< 0.01, 30篇为P< 0.001, 7篇为P< 0.0001。目前多数人认为,用截断值表示p值不是最佳办法,应该给出准确的数字。例如,当P<0.01时,目前尚不清楚这意味着P=0.009还是p=0.0000000001。
总之,对统计显著性的阈值要求更加严格,会使大多数临床研究论文受益。更有争议的在于是否应该完全禁止统计显著性。不管怎样,更加考虑研究的临床意义,研究开展之前做好计划,使用合适的统计方法,可以帮助改善临床研究。
参考文献:Eur Heart J. 2019 Aug 14;40(31):2553-2554.
doi: 10.1093/eurheartj/ehz555.
扫码关注“医咖会”公众号,及时获取最新重磅研究!
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)