注册 | 登录 | 充值

首页-> 学术资讯 -> 临床研究

美国大选预测为啥不靠谱?说说“选择偏倚”

临床研究

1970-01-01      

1872 0

北京时间11月9日下午,美国总统大选结果公布:川普赢得美国大选。每次美国总统大选之前,都能看到众多民调数据及各种预测。然而,有时候,大规模民调得出的预测结果,却和实际结果截然相反,这是为什么呢?

 

一、为什么美国总统大选预测与实际结果不一致?

 

根据11月7日Real Clear Politics网站公布的数据,大多数预测机构表示希拉里会获胜[1]

 

图1. 2016年美国总统大选预测结果

 

民调机构都预测希拉里获胜没有什么悬念,然而11月9日的大选结果却是特朗普获胜。

 

为什么预测结果和实际结果差别如此之大?英国《每日电讯报》指出,民调机构低估了保守派选民。

 

二、用什么样的样本做民意调查,结果才可能准确?

 

1936年美国总统大选前,当时著名的调查机构《文学文摘》(The Literary Digest)向美国民众发放了240万份问卷调查民意。根据调查结果,《文学文摘》预测共和党候选人兰登会赢得大选。但是,一位新闻学教授乔治·盖洛普(George Gallup)却提出了不同的看法。盖洛普通过对5万人的调查分析,预测民主党候选人罗斯福会连任。

 

图2. 罗斯福总统

 

后来大选结果是罗斯福连任。面对迷惑的民众,盖洛普解释了其中的原因:《文学文摘》统计的样本数量虽然多,但不具有代表性。因为他们的调查员是根据电话本上的地址发放问卷的,而当时美国只有一半的家庭安装了电话,这些家庭的收入相对较高——他们大多数支持共和党。而盖洛普在选择样本时,考虑了选民的种族、性别、年龄和收入等各种因素,因此虽然只有5万个样本,却更具有代表性。[2]

 

选择的样本人群不能代表总体,导致样本推断总体时出现偏差。我们把这种情况称为研究中的选择偏倚。

 

三、选择偏倚有哪些类型?

 

选择偏倚多在选择样本时,即纳入排除研究对象时产生,如前面讲的美国大选预测时,样本不具有代表性即是选择偏倚的一种。

 

另外,选择偏倚也可在资料收集过程中,由于研究对象的失访或无应答而产生。

 

根据不同的研究目的和方法,选择偏倚有多种具体形式,如无应答偏倚、入院率偏倚、现患-新发病例偏倚、检出症候偏倚、易感性偏倚等。

 

今天我们就来先了解一下什么是无应答偏倚吧。

 

四、什么是无应答偏倚?

 

当部分研究对象未收集到重要数据时,分析时往往只能将其剔除。此时,若剩余的研究对象与排除的研究对象特征不一致,就可能带来选择偏倚。

 

 

LABS-2研究中,237例研究对象未收集到基线数据或术后数据,在最终分析时被排除。研究者比较了237例被排除在外的研究对象与2221例被纳入研究中的研究对象的基线特征,发现多个因素间存在显著差异,由此判断可能存在选择偏倚。

 

另外,纳入的2221例研究对象也有部分访视数据缺失。研究者也比较了纳入的2221例研究对象中某次访视数据有缺失的研究对象与无缺失的研究对象的基线特征,发现数据缺失与患者年龄和所在医院相关,因此在后续的分析中调整了这两个因素,使得比较不同访视数据时,相关因素能够均衡。

 

五、如何估计选择偏倚的方向

 

图3表示一个全人群的代表性样本,蓝色图标为男性,红色图标为女性。全人群中男女比例为1:1,图中所示的样本男女各20人,比例也为1:1。

 

图3. 全人群的代表性样本

 

若该研究的目的是测量全人群中疾病A的患病率,样本中男性患病率为10%,女性为5%,那么全人群的患病率估计值为10% × (20/40) + 5% × (20/40) = 7.5%。

 

由于部分研究对象在调查时不配合(即无应答),导致数据分析时此部分数据被剔除。假设样本中男性剔除4/20的数据,女性剔除10/20的数据,使得样本中男女之比为16:10。

 

此时全人群的患病率估计值为10% × (16/26) + 5% × (10/26) = 8.1%。全人群患病率被高估,因为无应答人群中患病率更低的女性缺失比例更大(10/20 > 4/20)。(图4)

 

图4. 非随机缺失的样本

 

如果男女缺失的比例同样为1:1,则剩余的男女比例依然为1:1不变(随机缺失),那么全人群的患病率估计值也将保持不变。换句话说,如果缺失人群的性别特征与剩余人群的性别特征相同,则剩余人群依然具有代表性。(图5)

 

图5. 随机缺失的样本

 

LABS-2研究通过对比无应答人群与剩余人群的基线特征,来评价是否存在选择偏倚正是基于这样的原理。

 

需要注意的是,只有特征结局的影响不一致时,才会产生选择偏倚。上例中,如果男性和女性患病率相同(即性别不影响结局),那么不管缺失数据中男女比例如何,是否随机缺失,都不会影响全人群患病率的估计值。

 

参考文献

1.http://www.realclearpolitics.com/epolls/latest_polls/

2.吴军. 智能时代. 北京:中信出版社,2016. 27-29.



科研资讯(站内): 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika

百度浏览   来源 : 医咖会   


版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。

科研搜索(百度):医学科研 临床研究,医学统计,研究设计,统计咨询,研究方法,研究进展,医咖会,研医论道,yikahui,yika





发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯 更多>>
  • 肿瘤电场治疗Optune Lua获批治疗..
  • 成本更低的实体瘤抗癌新星:CAR-..
  • 文献速递-子宫内膜癌中的卵黄囊..
  • Nature|MSCs首次用于人体跟腱病..
  • 推荐阅读 更多>>
  • 了解ROC曲线下面积,有这篇文章..
  • 临床试验2/3期无缝设计是个啥?..
  • 多图实例:教你绘制ROC曲线..
  • 咋评价疾病预测模型?教你几种方..
    • 相关阅读
    • 热门专题
    • 推荐期刊
    • 学院课程
    • 医药卫生
      期刊级别:国家级期刊
      发行周期:暂无数据
      出版地区:其他
      影响因子:暂无数据
    • 中华肿瘤
      期刊级别:北大核心期刊
      发行周期:月刊
      出版地区:北京
      影响因子:1.90
    • 中华医学
      期刊级别:CSCD核心期刊
      发行周期:周刊
      出版地区:北京
      影响因子:0.94