医微客 - 比较两个疾病模型的预测能力，AUC和NRI了解一下？

比较两个疾病模型的预测能力，AUC和NRI了解一下？

临床研究

2019-10-25

2461 0

在上一期内容中，我们介绍了当考察一个疾病预测模型好坏的时候，常常会关注到2个维度，一个是预测模型的区分度（Discrimination），它反映了该模型是否能够将患者和非患者区分开来的能力；另一个维度是预测模型的校准度（Calibration），它反映了该模型预测结果与实际情况的符合程度。

(点击查看：你的预测模型靠谱吗？详解区分度和校准度的SPSS操作！)

那么对于两个疾病风险预测模型，应该选用哪一个模型更靠谱呢，应该如何比较两个疾病模型的预测能力呢？本期内容小咖就来向大家介绍一个老朋友AUC和一个新朋友NRI。

ROC曲线及其AUC

首先我们来复习一下ROC曲线，在诊断试验中，通常根据检验指标的判断结果和金标准诊断结果，整理成一个2×2的表格，如下表所示，并以此来计算诊断试验中两个比较重要的指标，即灵敏度和特异度。（戳链接：灵敏度和特异度，你搞清楚含义了吗？）

灵敏度=A/(A+C)，即真阳性率，反映了将实际有病的人正确地判定为阳性的比例。

特异度=D/(B+D)，即真阴性率，反映了将实际无病的人正确地判定为阴性的比例。

如果检验指标为连续性变量，我们可以将该检验指标划分为不同的切点，切点以上判断为阳性，切点以下判断为阴性，每个切点下都对应一个灵敏度和特异度，然后以灵敏度为纵坐标，1-特异度为横坐标绘制图形，即可得到我们熟悉的受试者工作特征曲线（Receiver Operating Characteristic curve，ROC曲线）。

从ROC曲线可以看出，随着灵敏度的上升，1-特异度增加，即特异度下降，反之亦然，当满足灵敏度和特异度相对最优时，可以把位于ROC曲线左上角的切点，作为适宜的诊断界值，即下图中的y点。同时，为了评价该检验指标的诊断能力，可以进一步计算曲线下面积（Area Under the Curve，AUC），AUC越大，提示指标的诊断能力越好。

除了应用在经典的诊断试验中，通常在构建好一个疾病预测模型后，ROC曲线及其AUC也可以延伸到用来对疾病预测模型的预测能力进行评估和判断。

当两个不同预测模型之间进行比较时，AUC越大，则提示模型对疾病发生概率的预测能力越好（戳链接：咋评价疾病预测模型？又见到熟悉的ROC曲线）。两个模型之间的AUC比较采用Z检验，统计量Z近似服从正态分布，计算公式如下：

其中SE1和SE2分别为AUC1和AUC2的标准误。

虽然ROC曲线及其对应的AUC已经在疾病预测模型的评价中得到了广泛的应用，但是由于计算AUC时综合了ROC曲线上所有点作为界值时的情况，而在实际的临床应用中，我们通常只会选取一个适宜的诊断切点，关心在这个切点下的诊断能力，而非所有点组成的曲线下面积。

同时，当我们在比较两个模型的预测能力时，特别是想要比较在模型中引入新的指标后，模型的预测能力是否有所提高，此时新加入的指标有时很难显著改善AUC，AUC的增量并不明显，其意义也不容易理解。在这种情况下，我们就需要用到另一个比较两个模型预测能力的指标——净重新分类指数（Net Reclassification Index，NRI）。

净重新分类指数NRI

相对于ROC曲线及其AUC，NRI更关注在某个设定的切点处，两个模型把研究对象进行正确分类的数量上的变化，常用来比较两个模型预测能力的准确性。

简单的说，首先旧模型会把研究对象分类为患者和非患者，然后在旧模型的基础上引入新的指标构成新模型，新模型会把研究对象再重新分类成患者和非患者。

此时比较新、旧模型对于研究人群的分类变化，就会发现有一部分研究对象，原本在旧模型中被错分，但在新模型中得到了纠正，分入了正确的分组，同样也有一部分研究对象，原本在旧模型中分类正确，但在新模型中却被错分，因此研究对象的分类在新、旧模型中会发生一定的变化，我们利用这种重新分类的现象，来计算净重新分类指数NRI。

那么如何计算NRI值呢，方法其实也很简单。首先我们将研究对象按照真实的患病情况分为两组，即患者组和非患者组，然后分别在这两个分组下，根据新、旧模型的预测分类结果，整理成两个2×2的表格，如下表所示。

我们主要关注被重新分类的研究对象，从表中可以看出，在患者组（总数为N1），新模型分类正确而旧模型分类错误的有B1个人，新模型分类错误而旧模型分类正确的有C1个人，那么新模型相对于旧模型来说，正确分类提高的比例为(B1-C1) / N1，即对角线以上的比例-对角线以下的比例。

同理，在非患者组（总数为N2），新模型分类正确而旧模型分类错误的有C2个人，新模型分类错误而旧模型分类正确的有B2个人，那么新模型相对于旧模型正确分类提高的比例为(C2-B2) / N2，即对角线以下的比例-对角线以上的比例。

最后，综合患者组和非患者组的结果，新模型与旧模型相比，净重新分类指数NRI= (B1-C1) / N1+(C2-B2) / N2

若NRI>0，则为正改善，说明新模型比旧模型的预测能力有所改善；若NRI<0，则为负改善，新模型预测能力下降；若NRI=0，则认为新模型没有改善。我们可以通过计算Z统计量，来判断NRI与0相比是否具有统计学显著性，统计量Z近似服从正态分布，公式如下：

进一步将NRI的公式推导可以得出：

NRI =（灵敏度new - 灵敏度old）+（特异度new - 特异度old）=（灵敏度new + 特异度new）-（灵敏度old + 特异度old）

问题就转化为我们熟悉的灵敏度和特异度这两个指标了。我们在前期推送的文章中《如何比较两种方法的灵敏度和特异度？来看实例教程！》，讨论过这种复杂的情况：

如果灵敏度new >灵敏度old，特异度new >特异度old，此时可认为新模型优于旧模型，相当于这里的NRI >0；

如果灵敏度new < 灵敏度old，特异度new < 特异度old，此时可认为新模型劣于旧模型，相当于这里的NRI <0；

如果新模型和旧模型的灵敏度和特异度具有差异，但方向不一致时，就需要用到约登指数（灵敏度+特异度-1）来进行判断，而此时NRI就相当于新模型和旧模型的约登指数的差值，因此NRI在比较两个模型预测能力时更具有综合性。

研究实例1

如果还是不明觉厉，没关系，我们通过模拟一个研究实例，来向大家介绍如何在实际的研究中计算NRI。假设某研究纳入的样本中有患者180例，非患者415例，研究者拟评价，在旧模型的基础上加入新的生物标志物后，新模型预测能力的改善情况。

在本研究180例患者组中，旧模型预测阳性148人中有8人被新模型错分到阴性，旧模型预测阴性32人中有30人被新模型重新正确分到阳性组。而在415例非患者中，旧模型预测阴性360人中有15人被新模型错分到阳性，旧模型预测阳性55人中有32人被新模型重新正确分到阴性组，数据整理为如下表格。

根据上述NRI公式计算如下：

NRI= (B1-C1) / N1+(C2-B2) / N2=(30-8)/180+(32-15)/415=16.3%

Z=4.292，P<0.001，具有统计学显著性，提示在加入了新的生物标志物后，新模型的预测能力有所改善，正确分类的比例提高了16.3%。

研究实例2

在第一个例子中，我们设定的结局变量为是否患病的二分类变量，但在有些情况下，直接根据预测模型判断是否患病显得过于绝对，预测模型给出的是未来患病的概率值，研究人员可能更关注的是患病风险的大小，例如将研究对象根据预测的风险概率划分为高、中、低三组，由此可以采取不同的干预措施。

针对此时结局变量是3分类或者更多分类时，ROC曲线呈现出一个球面的形状，绘制起来比较困难，更无法直观的去比较两个预测模型的AUC了，而NRI却可以很好的解决这个问题，这也是我们在实际分析中最常用到NRI的地方。

我们结合一篇2008年发表在Stat Med杂志上的文章为例，《Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond》，研究者以著名的Framingham Heart Study为基础，比较了在经典的模型中加入HDL-C指标后，新模型对于研究对象未来10年冠心病发病风险预测能力的改善情况。

研究人员首先比较了新、旧模型的ROC曲线，结果显示新、旧模型AUC分别为0.774和0.762，加入HDL-C后新预测模型AUC增加了0.012，差异无统计学显著性（P=0.092），提示新模型并无显著改善。