注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

随机分组就不用考虑混杂了吗?

临床研究

2019-10-25      

1554 0

作者:冯国双;文章来源:“小白学统计”公众号。

 

我听到过不少流行病学家说过类似的话:“这些都是随机对照试验,哪里来的混杂?”、“随机分组,怎么可能会有混杂”,等等。其实我个人一直很疑惑,随机分组真的就没有混杂了吗?

 

当然这个疑惑我无论问谁,可能都没有明确答案。事实上,有的人也会呛你一句:就算随机分组仍存在混杂,你能找到一个比随机分组更好的方式吗?然而我想,不能因为可能目前没有比随机分组更好的方式,就非得默认随机分组就是最好的方式。俗话说,没有最好,只有更好。只有不断探讨、怀疑当前的方法,才有可能不断发展,否则就故步自封了。所以我就自己来验证一下,供大家讨论,如有不合理之处,请各位专家不吝指出。

 

随机,这是当年统计学鼻祖Fisher首次提出,现在已经是作为试验设计的金字塔顶端。我们都相信,随机分组可以均衡已知的或未知的混杂,理论上,随机分组应该是可以得到比较可靠的结果。

 

然而,我始终还是想搞清楚:随机分组后,真的不存在混杂了吗?既然没有人给出答案,我还是自己通过统计模拟来解答自己的问题吧。(我想,这种模拟应该别人也做过,不过我比较懒,没有查文献,就自己直接做统计模拟了。如果有朋友知道,可以顺便提醒我一下。谢谢)

 

下面是我自己做的一个统计模拟。思路如下:

 

(1)产生一个10000人的总体,其中包含一个x变量,一个y变量。x均值为3,y均值为4(其实均值多少无所谓)。x作为协变量,y是结局变量。

 

(2)从总体中随机抽取一定例数的样本(我分别设置了200人、500人、1000人、2000人)。

 

(3)以200人为例,将抽取的200例样本随机分组,每组各100例。重复1000次。

 

(4)计算分组后两组的x差别大小。理论上,x在两组间应该差异很小(因为随机分组)。

 

(5)计算两组的y差值大小(原始差值),并计算校正x后两组y的差值大小(校正差值)。理论上,如果x在两组间差别很小的话,校正和不校正x应该对y影响不大。也就是说,y的原始差值和校正差值应该差别不大。

 

(6)比较y的原始差值和校正差值这两个到底差别有多大。这里采用了“(校正差值-原始差值)/原始差值” (用bias表示)这样一个相对偏差的方式来表示二者差别大小。

 

根据上面步骤,如果随机分组能够保证两组均衡的话,那么bias应该很小,最理想的情况,应该都是0。当然,肯定不可能都是0了,但应该在0附近才对。否则,很可能随机并没有达到预期效果,并没有将两组的x均衡。(注意这里我并没有采用p值,因为p值跟样本例数有关,效应值才更说明问题)。

 

下面就是结果了,我只展示样本为200的一部分结果,因为我发现200例、500例、1000例、2000例结果都差不多(可能跟例数没什么关系?)

 

下图反映了1000次重复抽样的y原始差值和校正差值的情况。


 

这个图中,绿色是y的原始差值,灰色是y的校正差值。可以看出,分布上还是有一定差异的,灰色(校正差值)更集中一些,而绿色(原始差值)相对更分散一些。

 

下面是1000次抽样的两组x(协变量)的差值分布

 

 

可以看出,总的来说,x在两组间的差值都是在0附近的,即比较均衡。其中差值大于0.6或小于-0.6的比例大约为5%。大于0.3或小于-0.3的比例大约为30%。

 

最后看(校正差值-原始差值)/原始差值” 这一指标。

 


我们会发现,这个结果很有意思,不像上面两个那么好看。因为有的偏差是非常大的,尽管很少,不到1%,然而这些偏差足以导致结果发生颠覆性变化。

 

由于上图不好看,我把太大的值去掉,横坐标只保留到-20和20(也就是20%的偏离范围)。这样清楚一些。

 

 

可以发现,大多数的还是偏离很小的,绝大多数的偏离都在5%以内。其中偏离在5%以上的,比例大约为10%;偏离在10%以上的,比例大约为5%。这并不算很大。

 

根据上面结果,我个人一点看法是:

 

关于随机分组,大多数情况下是可以保证两组均衡的,从而协变量对结果的影响很小;然而,如果就说“随机对照试验何来混杂”这样的话,却未免绝对。一个结果如果偏离10%,算不算大呢?这个就根据各位的理解了。因为在1000次随机分组中,如果完全假定两组均衡而不做任何校正,大约有50多次是能够导致结果偏离大于10%的。甚至有10次左右的偏离大于100%,也就是说,如果原来的两组差值为1,如果不校正很可能就变成2了。尽管这种几率非常低,但一旦发生,就是致命性的。关键是,这是有可能发生的。

 

所以,即使你是做随机对照试验,也不要掉以轻心,把随机分组当做挡箭牌,“我都做了随机了,还考虑什么混杂啊?”,这不是一种严谨的态度。任何方法或技术,总不可能尽善尽美。有时我们还是得勤于思考,而不是惰于习惯。

 

扫码关注“医咖会”公众号,及时获取最新统计教程!



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • 一位希腊老先生,竟能掌控中国上..
  • 最新版:本科、硕士和博士有何区..
  • 梅西,你球踢得再好,也不如“发..
  • 他不是药神:走私印度白血病仿制..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94