医微客 - 如何理解回归模型中的"调整"和"独立作用"

如何理解回归模型中的"调整"和"独立作用"

临床研究

1970-01-01

3301 0

《嫌疑人X的献身》这个小说讲述了一位单身母亲靖子与其女儿相依为命，一次意外失手杀死了前来纠缠的前夫慎二。为了掩盖靖子的杀人行为，一直以来爱慕靖子的邻居石神，以其天才数学家缜密的逻辑思维，为靖子设计了一个天衣无缝、无懈可击的不在场证明，一次次逃过了警方的调查。

然而令石神没有想到的是，他的大学旧友物理天才汤川偶然介入到这次谋杀案件的调查之中，打乱了他原本精心设计的计划，两人斗智斗勇，让案件的真相逐渐水落石出。

如果还没有看过原著的小伙伴们，推荐可以去看看电影，有中、日、韩三个版本，小咖觉得还是岛国拍的更贴近原著，更好一些。

我们来梳理一下小说中的人物关系，如图1所示：

图1. 人物关系梳理图

靖子：凶手，失手杀死了前夫慎二
石神：暂且称作为“帮凶”，为靖子掩盖杀人事实，并协助处理尸体
汤川：侦探，找出真凶破解案情

不知道大家有没有发现这张关系图很眼熟呢，在前期推送的内容《观察性研究控制混杂因素第一弹：分层分析》一文中，我们在介绍混杂因素的时候，同样展示过这样一张图，如图2所示，是不是和图1很相似呢？

图2. 混杂因素示意图

好了，说了这么多题外话，现在我们要回归到本期内容的正题了。经常会有小伙伴问到，从统计分析的角度，应该采用什么样的分析方法，来探讨暴露/处理因素与结局事件之间的关联，而且还能保证这种关联不受其他因素的影响呢？其实在多数研究中都用到了多因素回归的方法来解决这一问题。

当然控制混杂因素的方法有很多，内容详见前期推送的《观察性研究控制混杂因素》的系列文章：

1. 观察性研究控制混杂因素第一弹：分层分析

2. 说到控制混杂因素，怎么能不提多因素分析！

3. 大量混杂因素要调整？这4种倾向性分析方法你值得了解！

4. 控制混杂因素，再给你支个大招：工具变量分析

在多因素回归分析中，不管是多重线性回归、logistic回归、还是Cox回归，通常的做法是，将我们在研究中关注的暴露/处理因素，以及可能的混杂因素一同放入到回归模型中进行拟合，如果模型显示暴露/处理因素对结局事件的效应值有统计学显著性，则可认为在“调整了”（Adjusted）其他混杂因素的影响后，该暴露/处理因素对于结局事件是一个“独立”（Independent）的影响因素。

很多时候我们根据这样的分析结果匆忙作出结论，却很少去认真思考一下其中几个关键的地方，混杂因素的影响在模型中是怎么被“调整”的，为什么可以认为此时暴露/处理因素的作用是“独立”的呢？

回到《嫌疑人X的献身》这部小说当中，构建回归模型探讨对结局事件有独立作用的影响因素，就好比侦探破案找出真凶的过程。我们作为研究人员，就像小说中的侦探汤川，暴露/处理因素就像是真凶靖子，而其他混杂因素的干扰就像是帮凶石神。我们作为侦探，目的就是为了通过收集线索和资料，找出可疑的几个犯罪嫌疑人A、B、C……，然后再把这些嫌疑人带入到模型中进行进一步审问，排除其他嫌疑人的可能性，最终找出真凶X。

举一个简单的例子：

某研究人员拟探讨因素X对结局Y的影响，构建回归模型的方程为Y=11.33+2.52X。

此时研究人员发现因素Z与因素X、以及结局Y都有一定的关联性，判断可能为一个混杂因素，因此将X和Z一同带入模型中，得到的回归方程为Y=9.27+1.39X+0.72Z。

研究人员发现将Z带入模型中后，X的回归系数明显减小，由2.52减少到1.39，想想这是为什么呢？很多人会说，现在方程多了一个因素Z，系数当然会不一样啦！但其实并不是多了一个自变量这么简单，X的回归系数发生明显变化，原因就在于因为X与Z之间存在关联性。

在模型未引入Z的情况下，Z对于结局Y的作用就会被加到X上，此时X的回归系数并非反映的是X对Y的真实效应；当把Z带入到模型中后，实际上是把Z的作用从X中分离了出来，体现在回归方程中就发现X的回归系数发生了明显变化，有可能变大也有可能变小，此时的回归系数则更接近于X对Y的真实效应。

因此，我们可以认为，混杂因素Z的作用在回归模型中被“调整”了，此时因素X对于结局Y的作用是“独立的”。

如果还是不明觉厉，我们再来举一个同样来自于岛国的研究实例加以说明。该研究旨在探讨在低密度脂蛋白胆固醇（LDL-C）达标的患者中，残余脂蛋白胆固醇（RLP-C）对心血管疾病（CVD）发生的影响。

该研究连续纳入了1256名稳定冠心病患者，服用降脂药物后LDL-C水平<100mg/dL，每月随访一次，共随访3年，或随访到CVD事件发生。研究的主要结果如表1所示。

表1. 单因素和多因素Cox回归结果

可以看出，作者首先进行了单因素Cox回归分析，即把每个可疑的混杂因素单独与结局事件进行一次Cox回归，然后再根据单因素回归分析的结果筛选出P<0.20的变量作为候选变量，带入到多因素Cox回归中进行分析。

结果显示在单因素分析中，Non-HDL-C等因素为危险因素，ApoA-I为保护因素，但是在多因素分析中，这些因素对结局事件的影响效应均消失了，无统计学显著性；CRP、eGFR等因素，单因素和多因素分析的HR值保持相对稳定，并没有发生太大的变化；而RLP-C等因素，多因素分析后其HR值显著上升，从1.60上升到1.74，且仍具有统计学显著性。

根据以上不同因素回归系数的变化可以看出，在单因素分析中，有些因素的效应作用被夸大，有些因素的效应作用被低估或隐藏。

如Non-HDL-C，在单因素分析中显示为危险因素，但有可能它实际上对于结局事件并没有影响或者影响很小，它的效应作用被夸大，这种夸大的危险作用可能由于其他混杂因素的作用强加在它身上的结果。

而效应被低估的因素，如RLP-C，在单因素分析中，它的作用可能被其他混杂因素的作用所掩盖，因此在多因素分析中通过调整，把其他因素的混杂作用剥离出来后，才显示出其真实的效应，此时的效应值可被认为是独立作用。

还有一些因素的效应值前后并未发生太大的变化，如CRP、eGFR等，说明它们与模型中已经调整的已知混杂因素之间的关联性并不强，因而不受混杂因素的影响。

总结一下，在单因素分析中，由于混杂因素的存在，暴露/处理因素对于结局事件的效应作用，体现的不仅仅是暴露/处理因素纯粹的作用，其中也常常包括了混杂因素的作用。而通过构建多因素回归模型，即所谓“调整”其他混杂因素的影响，实际上是把该混杂因素的作用从暴露/处理因素的作用中剥离出来，在消除混杂因素的作用后，剩下的即为暴露/处理因素的“独立”作用，也就是独立于其他混杂因素外的作用，这才是我们真正要找的“嫌疑人X”。

所以，当我们对多因素回归模型进行参数解释时，一定要注意“独立”的意义，例如在多重线性回归模型中，回归系数应解释为：在其他变量不变的条件下，该变量X每增加一个单位所引起的Y的平均改变量；在logistic回归模型中，回归系数应解释为：在其他变量不变的条件下，变量X每增加一个单位所引起的结局风险的改变量。

理解多因素回归模型中的“调整”和“独立作用”，找出“嫌疑人X”的效应值，这通常是建立在我们已经确定了几个可疑的嫌疑人的基础上进行的，有时候确定嫌疑人的范围往往也是一件头疼的事情。

同样，统计分析并非一蹴而就，研究中收集的变量有很多，那么在构建多因素回归模型时，应该如何有效的筛选变量并将其纳入到多因素分析中呢？如何正确看待单因素和多因素分析结果，如果两者自相矛盾，又该如何解释呢？我们将在以后的内容中进行探讨，敬请期待。

参考文献：

[1] Atherosclerosis. 2011 Sep;218(1):163-7

百度浏览来源 : 医咖会