医微客 - 大量混杂因素要调整？这4种倾向性分析方法你值得了解！

大量混杂因素要调整？这4种倾向性分析方法你值得了解！

临床研究

1970-01-01

5082 0

在前两期的内容中，我们分别介绍了两种在观察性研究中最常用的控制混杂因素的方法，即分层分析法和多因素调整分析法，这两种方法操作起来较为简单也易于理解，但是他们都有一个共同的局限性，也就是同时调整的混杂因素的数量不能太多，且受到结局事件例数的限制。

如果有大量的混杂因素需要同时进行调整的话，此时该怎么办呢？今天我们就来继续为大家介绍一种高大上的控制混杂因素的常用方法——倾向性分析（Propensity Analysis）。

倾向性评分

在介绍倾向性分析方法之前，我们先介绍一个非常重要的概念：倾向性评分。顾名思义，倾向性评分是指在一定协变量条件下，一个观察对象接受某种暴露/处理因素的可能性，它是一个从0到1的范围内连续分布的概率值。

其基本原理是将多个混杂因素的影响用一个综合的倾向性评分来表示，从而降低了协变量的纬度，减少了自变量的个数，有效的克服了分层分析和多因素调整分析中要求自变量个数不能太多的短板。

那么在进行倾向性分析之前，第一步就是要计算出每个研究对象的倾向性评分。倾向性评分的估计是以暴露/处理因素作为因变量Y（0或1），其他混杂因素作为自变量X，通过建立一个回归模型来估计每个研究对象接受暴露/处理因素的可能性，最为常用的是logistic回归模型。

用logistic回归模型估计倾向性评分，操作简单容易实现，可以直接得到倾向性评分分值，结果也易于理解。倾向性评分越接近于1，说明患者接受某种暴露/处理因素的可能性更高，越接近于0，说明患者不接受任何暴露/处理因素的可能性更大。

在观察性研究中，通过倾向性评分来调整组间个体的差异，除了暴露/处理因素和结局变量分布不同外，可认为其他混杂因素都均衡可比，相当于进行了“事后随机化”，使观察性研究的数据达到近似随机分配的效果。

目前应用倾向性评分来控制混杂因素的方法主要有四种，下面我们将一一向大家进行介绍。

一、倾向性评分匹配法

在观察性研究中，如病例对照研究，经常会见到匹配的概念，即按照某些因素或特征，将病例组（或暴露组）和对照组的研究对象进行匹配，以保证两组研究对象具有可比性，从而排除匹配因素的干扰。

同样，既然倾向性评分是一个能够反映多个混杂因素影响的综合评分，我们也可以将两组人群按照倾向性评分从小到大来进行匹配，仅用匹配倾向性评分一个指标来达到同时控制多个混杂因素的目的。倾向性评分匹配是倾向性分析中应用最为广泛的一种方法。

首先我们要计算出每一个研究对象的倾向性评分，然后从小到大进行排序，对于每一个暴露/处理组的研究对象，从对照组中选取与其倾向性评分最为接近的所有个体，并从中随机抽取一个或N个研究对象作为匹配对象，直至所有的研究对象均匹配完毕，未匹配上的研究对象则进行舍去。（倾向性评分匹配的具体软件操作过程：SPSS操作：轻松实现1:1倾向性评分匹配）

当然，有多少研究对象可以成功匹配，常常与选择匹配的比例和匹配的标准有关。匹配的比例最常见的为1:1匹配，需要根据两组人群的数量来决定合适的匹配比例，建议不要超过1:4匹配。

对于匹配标准，如果匹配的标准很高，则能够成功匹配的对象就可能会少，甚至出现匹配不上的现象，造成研究对象信息的浪费，如果匹配的标准很宽泛，则匹配的效果就会较差，有可能出现两组人群在匹配后依然存在混杂因素分布不均衡的现象。

例如某个个体的倾向性评分为0.8，如果设定匹配标准为±0.02，则需要为其寻找倾向性评分在0.78-0.82之间的对照进行匹配，匹配范围太窄就可能出现匹配不上的情况；如果设定匹配标准为±0.2，则需要为其寻找倾向性评分在0.8-1.0之间的对照进行匹配，匹配范围太宽则可能降低匹配的效果。

我们用上一篇讲解多因素调整法时所引用的研究作为实例进行讲解。该研究一共纳入了122124名名研究对象，其中有60%的患者（73238）在住院30天内接受了心脏介入治疗，40%的患者（48886）接受了保守治疗，两组人群基线特征分布很不均衡（表1）。

为了控制混杂因素的影响，研究人员采用倾向性评分匹配的方法，以倾向性评分±0.1、年龄±5岁为标准进行匹配，最终共成功匹配31193组研究对象，其基线特征比较也基本达到了均衡，如表2所示。

以此计算的HR=0.53（95% CI：0.51-0.54），提示心脏介入治疗可以有效降低心梗患者47%的死亡相对风险，与多因素调整法计算的HR=0.51（95% CI：0.50-0.52）结果基本一致。

二、倾向性评分分层法

在第一期的内容中我们介绍了传统的分层分析法，是利用原始的混杂因素来进行分层，当有K个混杂因素时，就需要将样本一共分为2^k个层，混杂因素较多时，就有可能出现某些层里只有几个同时满足分层条件的研究对象，甚至是没有满足条件的研究对象，在这种情况下传统的分层分析计算较为复杂，且结果也会产生一定的偏倚。

现在我们可以通过构建回归模型，利用K个混杂因素计算出倾向性评分值，仅用倾向性评分一个变量来进行分层，避免产生分层过多的问题，同时每个层里的研究对象也具有较高的同质性。通常情况下，我们可以按照倾向性评分的大小，将研究对象分为5-10层，在每一层混杂因素达到均衡的状态下，分析暴露/处理因素X与因变量Y之间的关系。

我们依然用上一篇讲解多因素调整法时所引用的研究作为实例进行讲解。研究人员通过构建logistic回归模型，其中因变量为是否接受心脏介入治疗，自变量与多因素调整法中纳入的自变量相同，共65个混杂因素，以此模型来计算倾向性评分。然后将倾向性评分进行十分位分层，如表3所示。

结果显示，倾向性评分的范围为0-0.98，在十分位的每一分层内，不管是心脏介入治疗组还是保守治疗组，预测的1年死亡率都非常接近，特别是在第3层到第8层，死亡率几乎相等，说明通过倾向性评分进行分层，使得每一层内两组研究对象的基线特点达到了均衡的分布状态，从而起到了控制混杂因素的作用。

在此前提下，我们发现随着倾向性评分的升高，预测的1年死亡率则呈现下降的趋势。前面我们已经介绍过，倾向性评分越高，越接近于1，说明研究对象接受心脏介入治疗的可能性就越大，而此时其死亡率越低，提示心脏介入治疗对于死亡风险来说是一个保护因素。

以此计算的HR=0.54（95% CI：0.53-0.55），提示心脏介入治疗可以有效降低心梗患者46%的死亡相对风险，与多因素调整计算的HR=0.51（95% CI：0.50-0.52）和倾向性评分匹配计算的HR=0.53（95% CI：0.51-0.54）结果基本一致。

三、倾向性评分校正法

倾向性评分校正的方法是将倾向性评分和传统的回归分析相结合的一种方法。我们在介绍多因素调整的方法中提到，其控制混杂因素的个数主要取决于发生结局事件的多少，控制的混杂因素越多，所需要的结局事件的例数就越多。因此对于一些罕见病的研究，或是当收集到的结局事件很少时，如果采用多因素调整的方法，就很难全面控制多个混杂因素。

倾向性评分的一个优势就在于，它可以将多个混杂因素的影响用一个综合的倾向性评分来表示，从而减少了自变量的个数。在构建回归模型时，只需要将倾向性评分作为一个协变量，然后再将暴露/处理因素作为分析变量纳入到回归模型中，以此分析在控制倾向性评分后，暴露/处理因素与结局变量之间的关联性，因此通过控制倾向性评分一个变量，就达到了控制多个混杂因素的作用，是不是so easy呢！

四、倾向性评分加权法

倾向性评分加权法的原理与传统的标准化法的原理类似。标准化法的基本思想是制定一个统一的“标准人口”，按照“标准人口”中混杂因素构成的权重来调整两组观察效应的平均水平，从而消除两组之间由于内部混杂因素分布不同对效应值的影响。

倾向性评分加权法在计算得出倾向性评分的基础上，利用标准化法的原理，通过倾向性评分值赋予每个研究对象一个相应的权重进行加权，使得各组中倾向性评分分布一致，从而达到消除混杂因素影响的目的。因此倾向性评分加权法是一种基于个体化的标准化法。

在实际的应用中，根据选择的标准化人群的不同，倾向性评分加权法可以分为逆概率处理加权法（the inverse probability of treatment weighting，IPTW）和标准化死亡比加权法（the standardized mortality ratio weighting，SMRW）。

IPTW法是以所有观察对象作为标准人群进行调整，暴露/处理组各观察对象的权重为Wt=Pt/PS，对照组各观察对象的权重为Wc=(1-Pt)/(1-PS)。(其中Pt为整个人群中接受暴露/处理因素的比例，PS为每个研究对象的倾向性评分)

SMRW法是以处理组观察对象作为标准人群进行调整，暴露/处理组各观察对象的权重为Wt=1，对照组各观察对象的权重为Wc=[PS(1-Pt)]/[(1-PS)Pt]。

当每一个观察对象的权重计算出来之后，就可以使用加权回归的方法来估计暴露/处理因素的效应值。

总结一下，倾向性分析的方法，是通过计算出每个研究对象的倾向性评分，从而可以用倾向性评分一个指标来集中体现多个混杂因素的综合影响，然后再使用分层、匹配、校正或加权等多种方法进行分析，以达到控制混杂因素的目的。

但是倾向性分析法依然无法解决由于混杂因素测量不准确，或者未知因素所引起的残余混杂作用。若想要在观察性研究中，使其结果接近RCT研究的理想状态，有没有更好的办法呢？在下一期内容中，我们将继续为大家介绍观察性研究中控制混杂因素的另一种新生代方法——工具变量分析。

参考文献

1. JAMA. 2017 Feb 21;317(7):748-759

2. JAMA. 2007 Jan 17; 297(3): 278–285