医微客 - 倾向性匹配，你需要注意什么？

倾向性匹配，你需要注意什么？

临床医学

1970-01-01

2086 0

作者：袁联雄老师

来源：郑正有词微信公众号

观察性研究由于组间基线特征不均衡，不能像RCT一样直接比较组间效应，倾向性匹配（Propensity Score Matching, PSM）近年来已经被广泛应用于观察性研究来处理组间不均衡问题。尽管研究证明PSM有很多优点，但它并不是万能的，在实际应用过程中仍然有一些需要注意的地方：

第一：实验组与对照组样本量问题。PSM最适合对照组样本量远远大于实验组的情形，如10倍以上，此时对于每个实验组的病例，有较大的可能在对照组找到匹配的病例。对于1:1的情形，也不是不可以做PSM，此时需要两组都有较大的样本量，通过卡钳匹配筛选出一个相对均衡的数据子集；

第二：匹配变量问题，即在构建logistics回归计算Propensity Score时需要考虑哪些因素。观察性研究不能像RCT一样直接比较组间效应最大的诟病是存在大量的混杂因素。根据流行病学定义，混杂因素是指同时与研究因素和研究疾病均有关，且不是因果链上的中间因素，因此临床上认为可能是混杂因素的变量都要尽可能的纳入。事实上，任何与结局变量有关的因素都应该尽可能的纳入，想象一下，A因素与结局变量有关，与分组可能无关，但在我们的数据中，A因素在PSM后的组间分布不均衡，那此时的组间差异到底是处理效应还是A因素的效应还需要进一步的分析。因此，在考虑纳入哪些匹配变量时不再是像多因素分析一样基于P值，而应该基于临床经验、理论和文献依据。

第三：匹配方法问题。常用的匹配方法有最近邻匹配和卡钳匹配。其中卡钳匹配是在最近邻匹配的基础上加了一个限定，即两个匹配的对子的距离或差异不能超过一个给定的最高值，对于任一实验组的病例，如果其与对照组中所有病例的最小差异超过这个给定的最高值，则这个实验组的病例将被剔除掉。因此对于实验组而言，最近邻匹配是全匹配的，即所有实验组的病例都可以在对照组找到一个“匹配”的病例，但这个匹配程度有可能很好，也有可能很差，特别在对照组样本量相对较小的时候，很有可能出现匹配度很低的对子，因此对于匹配后的组间均衡性评估仍然是个必要的步骤。而卡钳匹配则可能不是全匹配，只有部分实验组的病例能找到匹配的对子，而这些无法匹配的病例通常是比较大可能分配到实验组的病例，此时匹配后的实验组有可能与原来的实验组特征差别较大，已经不再能代表原人群，此时虽然组间是否存在差异可以直接判定，但如何定义匹配后的两个人群特征，如何下结论需要慎重考虑。

第四：匹配样本与未匹配样本差异问题。如第三点所述，对于卡钳匹配，匹配后的实验组有可能与原来的实验组样本特征差别较大，已经不再能代表原人群，而对于对照组，不管是卡钳匹配还是最近邻匹配，都有可能存在这个问题。因此做了PSM后，还需要比较下匹配样本与未匹配样本的特征，而这对于最后结果的解释、结论的外推是非常重要的！