医微客 - 应该调低P值，还是干脆抛弃“统计显著性”？

应该调低P值，还是干脆抛弃“统计显著性”？

临床研究

1970-01-01

1898 0

近年来，关于“statistical significance（统计显著性）”和P值的争议一直存在。前段时间，《Nature》发表了一篇题为《scientists rise up against statistical significance》的文章，《美国统计学家》也专门发布了一个针对P值的专刊。感兴趣的可以查看：放弃"统计显著性(P＜0.05)"的时代，已经到来了吗？

近日，《欧洲心脏病杂志》（EHJ）发表了一篇专家观点，再次针对“统计显著性”发表了自己的观点，到底是降低P值，还是抛弃统计显著性，我们来看看这位专家持怎样的态度。

几十年来，论文中都基于p<0.05来声明具有“统计显著性”。然而，很多专家也发现，有些论文中的统计学意义和临床意义并不相符，p值的滥用问题很严重。2016年，美国统计协会（ASA）曾针对这些误用发表了共识（表1）。

表1. ASA关于P值的主要声明要点

方法学专家在核心问题上意见一致，但在许多关键细节上仍然存在分歧，更重要的是，在如何最好解决“统计显著性”问题上也存在分歧。理想情况下，所有学科都需要全面了解统计工具、注意事项和如何正确解读结果。然而，提高所有学者、临床医生甚至普通大众的统计素养需要长期的努力。

最常见和严重的误解是，“P< 0.05”就表示效果“是真的”，甚至“很重要”。目前大多数达到P<0.05的研究，并不太可能反映真实的因果效应，更不用说重要效应。大多数研究都存在偶发性或偏倚，可能很少真的具有临床重要意义且值得采取措施。

还有一个误解是，P≥0.05就必然意味着“不是真的”或“不存在差异”。小型研究可能就无法发现真正的差异性。如果偏倚削弱了估计值，即使是大型研究也可能会遗漏一些真正的差异。在某些领域，尤其是社会科学领域，有人认为不管差异多么小，也总是存在差异的。还有另一种学派主张，大多数经过检验的关联和效果很可能实际上是无效的。

前段时间，有学者针对文献都陷入“统计显著性等同于P< 0.05”这一困境，提出了两个解决办法。

其中一个建议是保留统计显著性，但要增加达到统计学显著性的难度 [PMID：30980045 ]。对于仍使用P< 0.05这个阈值的研究，该建议将统计显著性阈值改为P<0.005。这降低了“假阳性”，但增加了“假阴性”。如果“假阳性”确实相比“假阴性”是一个更严重且常见的问题，那么这种方法看起来合理。调低p值可能会给研究人员带来压力，迫使他们进行大规模（或许研究设计会更细致）的研究。

如果一个研究是评估不太可能发生的事件，P< 0.005可能仍然不足以保证真实性。此外，还有人担心，许多研究人员可能会更加偏激，强行使P值达到<0.005。尽管如此，这种使用P<0.005的方案还是比较简单，可以应用于已发表的和未来的研究，也可以迅速去除大量没有研究价值、没有临床意义的方向。

另一个解决办法是完全放弃“统计显著性”和任何“显著/非显著”的概念[PMID：30894741]。这种禁止“统计显著性”的概念但又保留P值的建议可能是不明智的，如果没有任何预先制定好的规则，任何研究人员都可能以对自己有利的方式来解释任何结果。

虽然“零假设”显著性检验常常被误用，但如果正确使用，按照预先制定的分析计划来处理研究问题，仍然是很有价值的，可以帮助排除掉“无意义”的结果。这在很大程度上取决于事先制定整个排除计划时考虑得有多仔细。对于许多临床研究，例如随机试验，是需要有预先定好的规则的。

EHJ文章中报告P值的情况

本文作者检索了欧洲心脏病杂志（EHJ）2018年发表的所有文章，检索出摘要中使用了“significant”这个词的文章。最终有62篇文章被纳入（表2）。只有11篇论文使用该词来指代临床意义，3篇论文明确写的是统计显著性（statistical significance），49篇论文是通过一个假设的统计推断间接提到了“significant/significance”。

表2. EHJ杂志中使用术语“significance”的文章

62篇论文的摘要中，37篇至少报告了一个p值，62篇总共报告了141个p值，其中86%的p值＜0.05。96%的摘要中至少有一个p值<0.05。

在P< 0.05的论文中，36%会写结果具有“提示性（suggestive）”，除非P< 0.005，否则不会提到统计显著性（statistical significance）。

许多P值是用截断值（cut-offs）来报告的，而不是精确值，如141篇论文中有13篇为P< 0.01, 30篇为P< 0.001, 7篇为P< 0.0001。目前多数人认为，用截断值表示p值不是最佳办法，应该给出准确的数字。例如,当P<0.01时，目前尚不清楚这意味着P=0.009还是p=0.0000000001。

总之，对统计显著性的阈值要求更加严格，会使大多数临床研究论文受益。更有争议的在于是否应该完全禁止统计显著性。不管怎样，更加考虑研究的临床意义，研究开展之前做好计划，使用合适的统计方法，可以帮助改善临床研究。

参考文献：Eur Heart J. 2019 Aug 14;40(31):2553-2554.

doi: 10.1093/eurheartj/ehz555.