1970-01-01
本文参考自《Am J Gastroenterol》(影响因子:9.566)上的一篇文章《Ten common statistical errors and how to avoid them》[1]。第一期和第二期分别推送了“论文中研究方法和结论的常见问题”以及“统计分析数据时的几大常见错误”,今天,我们再来看看P值运用的常见问题。
1、P>0.05不等于“两组相同”
组间比较通常会有三种结果:两组可能相同、两组可能不同、缺少证据来证明两组相同或者不同。大多数的假设检验以零假设开始,如果证据充足,可以拒绝零假设并发现差异;然而,如果没能发现差异,可能依旧无法得知两组是相同,还是由于缺乏证据而无法证明它们有差异。
【建议】当P>0.05时,要避免得出“两组是相同的”这一结论,而应该是:“没有证据显示两组有差异”。如果研究目的是为了得出“两组一样”的结论,那需要进行等效性检验,或者是计算置信区间。与假设检验相比,置信区间能提供更为清楚的结果。
在非劣效性研究中,并不是以“两组相同”(例如不良反应发生率相等)作为零假设,而是以“治疗组的不良反应发生率比对照组高5%”作为零假设,若拒绝零假设,则认为治疗组与对照组的不良反应发生率的差值不超过5%。
2、仅报告P值,缺乏其他重要信息
“与安慰剂组相比,治疗组更容易发生不良反应(P=0.04)”。在该例子中,P值的含义是什么?针对哪一种不良反应?是将所有不良反应作为整体进行了比较?还是分别对每一种不良反应进行了比较?作者是对不良反应的数量、中位数还是不良反应的构成比进行了比较?
类似上述这种P值,由于不明确用了什么假设以及使用的数据类型,因此并不具备实际意义。
举个例子,假设有两个临床试验[2],其结果见表1。
表1. P值相同、置信区间不同的两个临床试验
根据表1,仅仅依据P值,两个研究得到的结论是一样的,但是由于样本量的不同,两个研究的治疗组和安慰剂组的效应差值是不同的,并且95%置信区间也有较大差异。如果只依靠P值,可能就会忽视样本量对结果带来的影响。
【建议】对于每一个P值,应该清楚说明是针对什么假设以及运用的检验方法。在某些情况下,P值并非是最好的选择,报告效应值大小或者置信区间也许更加有意义,也更加清晰。
(相关阅读:你真的理解p值么? 一句话解释p值的常见误解;相爱相杀的置信区间和p值)
3、过度追求P<0.05而忽视医学本身
过分强调统计学方法往往容易忽视医学本身。P<0.05仅仅是一个统计学上的指标,必须建立在满足生物合理性和公认的医学证据的基础上。Fisher强调,研究者应该根据广泛的专业知识对显著性水平进行解释。
然而,很多情况下作者用统计学检验方法代替医学解释,更糟糕的是利用有意义的检验结果来美化文章(例如,次要终点成为文章的重点)。实际上应该根据经验和已有的证据建立一个假设,然后通过假设检验的方法来解决这些问题。
从20世纪50年代到70年代,随机临床实验成为了医学研究的金标准。假设检验随之成为随机对照试验中比较治疗效果的有效的、客观的方法。虽然并非所有的试验都满足随机对照试验的条件,但是都需要依靠假设检验,结果导致了过分夸大P值,尤其随意将其与0.05水平进行比较,对统计学在临床实践中的应用产生了很大的影响。
【建议】理想的情况是样本可以代表所有患者,但事实上这是不可能的。因此,需要在文中汇报效应值、置信区间,并在医学和生理学基础上对结果进行合理的解释说明,以便帮助其他研究者做出判断。
参考文献
1. Am J Gastroenterol. 2008 Feb;103(2):262-6.
2. Am J Gastroenterol.2004,99:1638-1640.
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)