注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

JAMA:25年的P值发展史

临床研究

1970-01-01      

1366 0

近年来,类似“p值已死”的观点总要时不时地跳出来,刺激一下大家。但是立马丢了它,该怎么衡量我做的研究结果到底“显不显著”,能不能见刊?也成了一大问题!也不能赖研究者一味追求“p<0.05”,环境使然!这个环境(推崇p<0.05)什么时候开始的呢?今天带着大家换个角度看看过去20多年来P值的变化。

 

 

1、越来越流行的p值

 

虽说p值用的越来越多,如果论文没几个p<0.05的结果都不好意思跟同行打招呼,但是p值有多流行,恐怕没几个人能说清楚。

 

Chavalarias等人[1]基于超过1200万篇MEDLINE摘要和80万篇PubMed Central(PMC)全文(包含摘要)的自动文本挖掘,系统阐述了过去25年(1990-2015年)生物医学文献中的P值变化。该研究已在JAMA上发表。

 

 

研究者发现,随着时间的推移,越来越多的科学论文在研究结果中报告了P值。MEDLINE摘要中P值出现比例从1990年的7.3%上升到2014年的15.6%,其中随机对照试验高居首位,摘要中报告P值的比例达54.8%(95%CI, 54.0% - 55.6%);Meta分析增长速度最快,在过去的二十年中几乎增加了三倍,达到35.7%(95%CI, 34.5%-37.0%)。

 

 

有P值的摘要和全文中,96%会至少报告1个“统计学显著”的结果,报道最多的情况是“p<0.05或p<0.001”。

 

 

研究者进一步对其中796篇摘要和99篇全文进行了人工阅读,发现P值出现的比例分别为15.7%和55%,而仅有2.3%摘要和4%全文报告了置信区间,针对不同类型效应值的报告情况差别较大(见下表)。

 

2、“后p<0.05时代”

 

走在十字路口的今天,对于P值的讨论也愈发激烈,正如Chavalarias等人在论文中提到的,一方面,P值仍然被一些研究者错误地作为衡量临床效应大小的标准,而事实上两者并没有什么一一对应的关系;另一方面,P值对样本量极为敏感,对于动不动就有几十万,几百万样本量的研究而言,获得一个P<0.05的结果变得轻而易举。

 

针对这种过分强调P值的情况,美国统计学会(ASA)在2016年发布了一个关于统计意义和P值的声明,提出了6条使用和解释P值的原则,但是,令人遗憾地是,这份声明更多地是“原则”层面上解读,并没有“操作”层面切实可行的方法。

 

 

对于P值目前存在的问题,最容易也是最直接的方法莫过于降低我们传统认为的“显著性水平”——P<0.05,当然这个方法实际上早就应用到临床研究中。

 

例如,在全基因组关联分析(GWAS)中,为了控制总的Ⅰ类错误发生概率,显著性阈值通常考虑设定为P<5*10-8,来确保发现的关联具有较高的可重现性,并且在新的种群中进行测试时,这些关联也可以保持一致。尽管人类基因组的极端复杂性,但是需要比较SNPs的量级却是可以大致估计的,相应的显著性阈值也可以有针对性进行调整。

 

但是,对于大多数其他类型的生物医学研究而言,这里面的复杂程度以及潜在的多重比较其实很难理清楚、讲明白的,带来的问题也是显而易见——你没办法确定一个合适的显著性阈值。

 

当然,也有学者通过复杂的统计模拟(主要是贝叶斯思想),建议将目前的显著性“significant”阈值降到0.005,而之前的0.05只有提示意义“suggestive”[2]。先不论这样做是不是科学靠谱,如果真的这么做,其结果必然是影响极端深远的——目前已发表的论文当中,三分之一将要归为“仅有提示意义”。诸位仍在奋战“P<0.05”的小伙伴大概要哭了(这科研还有法儿做吗?)!

 

然而,似乎多数人是热烈欢迎这样的改变,在过去的2017年7月,Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时,发现竟有69%人的表示支持!

 

 

 

反对的声音还是有的,正如公众号较早时候的推文:厉害了!百位作者借助Google Docs合作撰文讨论P值问题,文中Daniel J. Benjamin等人对于将现行的显著性水平从0.05降到0.005不以为然。

 

理由嘛,第一、显著性水平的降低会增大研究所需样本量,无疑会增加研究成本;第二、科学研究是多元化的,不应该用单一P值评论研究的价值。有反对,当然会有相应的主张,Daniel等人认为应该摒弃“显著性”这样的标签,应该允许研究者根据研究设计和数据解读的考虑,自行设定合适的检验水准α(看到这儿不知各位小伙伴有没有会心一笑~)。

 

还有更狠的,一些国际大牌儿杂志直接宣布禁用P值,比如说Political Analysis[3],Basic and Applied Social Psychology (BASP),但是一个比较搞笑点是,当BASP的主编被Nature问道,“没了P值怎么办时”,主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”[4]

 

(Political Analysis, 2018)

 

(BASP, 2015)

 

目前而言,无论是调整显著性水平,抑或是全盘否定P值,都尚在争论。如何能够更合理地找个一个替代解决方案,仍然需要很多尝试(下表[5])。

 

 

参考文献

1. JAMA. 2016; 315: 1141-8.

2. Nature Human Behaviour. 2018; 2: 6-10

3. https://thenewstatistics.com/itns/2018/02/03/banning-p-values-the-journal-political-analysis-does-it/

4. https://www.nature.com/news/psychology-journal-bans-p-values-1.17001

5. https://jamanetwork.com/journals/jama/fullarticle/2676503

 

扫码关注“医咖会”公众号,及时获取最新统计教程!



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • 搞懂传统单因素分析和单因素回归..
  • 样本量大于30,就可以认为是正态..
  • 做Meta分析,警惕生产"医学假新..
  • 相爱相杀的置信区间和p值..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94