医微客 - 你真的理解p值么? 一句话解释p值的常见误解…

你真的理解p值么? 一句话解释p值的常见误解…

临床研究

1970-01-01

3354 0

文章一开始，我们一起来看一个临床试验中常见的设计。

我们想知道一种新药A能否改变患者的住院天数。在没有确切信息的时候，我们的假设是不能，也就是使用A和不使用A的两组的平均住院天数相同。换句话说，使用A对于患者住院天数没有影响。我们设计了一个随机对照试验(RCT)，把200名患者1：1随机分入A组(使用新药)和B组(使用安慰剂)，每组100人。

试验结果中，A组患者平均住院天数为25.1天，B组为27.6天。进行双样本t检验后，得到了p值为0.015。

那么，单看这个p值，下列理解哪些是正确的呢？

A. 有1.5%的概率，使用A对于患者住院天数没有影响；

B. p = 0.015 意味着两组平均住院天数有很大不同（即效应值很大）；

C. p = 0.015 意味着使用A和患者住院天数的关联度很高；

D. 若 p > 0.05，则意味着没有治疗效果。

-------------------------------------------

实际上，这4个选项都是错的！让我们一个个来解释。

A 选项

一句话解释：p值只是假设和数据的关系

首先，我们来明确一下p值的定义。

美国统计学会(American Statistical Association, ASA)明确告诉我们：

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

( p值不是“我们研究的假设是真的”的概率，也不是“数据仅仅由随机因素产生的”的概率)

p值解释的并非假设本身，而是数据和假设的关系(比如，我们收集到的A组和B组的数据，和假设“使用A对于住院天数没有影响”的关系)。这是因为，假设本身要么就是对的，要么就是错的，不存在一个概率的问题。

因此，p=0.015的含义是，如果我们的假设是正确的(即使用A对于住院天数没有影响)，那么我们在这一次临床试验中得到平均住院天数差为2.5天这个结果，甚至于更极端（大于2.5天）的概率是0.015。

(p值描述的是：如果原假设是正确的，我们得到某次观测值甚至更极端的值的概率。来源：wikipedia.com，获取日期：2017/6/30)

B 选项和C 选项

一句话解释：显著≠重要

如果A能显著地缩短住院时间2天，而和B在其他方面差不多，那么我们真应该使用A药替换B药么？我们要考虑的当然是住院时间本来是多久：如果住院时间原本是5天，那缩短2天则是很好的结果；但是如果住院时间原本是30天呢？甚至，如果是365天呢？

我们先来回顾一下“效应值”的概念。效应值(effect size，是对于试验效果描述的统计量)通常表示不同的处理下总体均值差异的大小。比如，在我们的例子中，A组和B组住院天数所相差的2.5天就是对于该试验效果的一个估计值。

效应值是一个和p值同样受欢迎的统计量，这是因为一个更大的效应值意味着更好的效果，这说明新药更加有效。比如对于例子中的新药A，我们乐于看到A组能平均缩短2.5天的住院天数，甚至是3.5天、4.5天，甚至更多。同时，p值受样本量影响非常大，而观测到的效应值则相对受样本量影响较小，因此比p值更加“稳定”。

(我们应该同时汇报p值和effect size。来源：the Lovestats Blog，获取日期：2017/6/30)

然而，正是由于样本量大小对于p值和效应值的影响不同，效应值的大小不一定与p值相关。在某些情况下，两个类似的研究尽管有截然不同的效应值，也可能得出相近的p值。也因此，p值也不能说明使用A和住院天数的关联度大小。

D 选项

一句话解释：p值 > 0.05只说明还没找到有效的证据，而不意味着无效

Absence of evidence is not evidence of absence

前面选项错在过度解读了“p值显著的结果”，而这个选项则错在过度解读了“p值不显著的结果”。在上面的例子中，p若大于0.05只能说明没有找到A药有缩短住院天数的证据，而不是A不能缩短住院天数的证据。当然，许多媒体也会犯这一类的错误。

(《美国科学院最新报告：转基因食品对人无害》，来源：163.com，获取日期：2017/6/30)

比如上面这篇报道，正文第一句写的是“没有证据表明转基因农作物对人类或环境有害”，而标题却被改为了“转基因食品对人无害”。

其实，p值描述的是数据和一个特定的统计学模型（原假设）的不匹配程度：p值越小，数据和该统计学模型的不匹配程度就越大。在“无关联”的假设下，只要p值小于1，数据中就包含了某些联系，所以我们也需要关注试验的效果（效应值）来得出结论。同时，p>0.05只意味着没有找到可信服的证据。然而，这不意味着已经检验了所有的证据，也不意味着每个人都会同意所得出的结论。比如，我们若增加样本量，或者提高测量的精度，都有可能得到显著的结论。

总之，更小的p值并不意味着更大的效应值或者更显著的结果。

p值的正确应用

最后，我们谈两句该如何应用p值。

在实际的统计分析中，很多科研人员把p值是否小于0.05看作研究结论的“试金石”，为了得到看起来显著的结论，有些研究者会进行所谓的 p-hacking (p值操纵)，即有意或无意地尝试操纵数据，直至p值小于0.05，并隐藏其他“不显著”的结果，从而导致报告偏倚(reporting bias)。甚至，美国最大的在线俚语词典 urban dictionary 都收录了这个词，并且给出了例句。