2019-10-25
我们在前期介绍Framingham Heart Study的文章中《历经70年,发文3000多篇,致敬如此伟大的研究!》,提到Framingham Heart Study在探讨疾病危险因素和构建风险预测模型方面,做出了很大的贡献。
其中1998年Framingham Heart Study发表了一个经典的冠心病10年风险预测评分工具,该风险函数成为美国国家胆固醇教育计划(NCEP)成人治疗方案(Adult Treatment Panel,ATP)计算冠心病风险的基础。
该模型不再使用原有的连续变量形式,而是将危险因素进行分层,对每一分层进行量化赋分,最后通过计算总分来对患者进行疾病风险评估,评分工具不仅有助于患者理解,也能够在临床中得到较好的推广应用。
如果说只是单纯的构建疾病风险预测模型,相信大家应该都比较熟悉,至少大家也都用过Logistic回归、Cox回归等这些常用的回归模型。但是如何将自己构建的预测模型转化为风险评分工具,似乎成了一个难题。
今天小咖就以多因素Logistic回归模型为例,给大家逐步解密,教会大家也能做出这种高大上的疾病评分工具。
研究实例
我们仍以Framingham Heart Study为例来进行说明,研究共纳入9443名健康人群,年龄为30-79岁,对研究对象随访5年,观察他们冠心病硬终点的发病情况,包括心肌梗死、死亡。
假定我们要考虑的主要危险因素包括:年龄、性别、收缩压、吸烟,研究人群各个危险因素的分布情况如下表所示,我们在此研究的基础上来制作疾病风险评分工具。
步骤
1. 构建多因素Logistic回归模型
通过构建多因素Logistic回归模型,将我们主要考虑的危险因素纳入到回归模型中,从而估计各个危险因素的回归系数β,OR值及其95% CI,回归结果如下表所示。
2. 将各个危险因素进行分类,并指定每组的参考值Wij
我们按照临床意义或使用习惯将各个危险因素进行分组,并在每个分组中选择合适的数值作为参考值Wij,通常选择组内的中间值作为参考值。
例如在本例中,研究人群的年龄范围为30-79岁,通常我们按照10岁一个年龄段来进行划分,将其分为5组,每组选择中间值为参考值Wij,例如30-39岁这一组的参考值Wij为(30+39) / 2 = 34.5。
本研究中血压的范围为78-240mmHg,我们按照高血压指南的诊断切点来进行划分,每10mmHg为一组,共分为5组,每组选择中间值为参考值Wij。但这里需要注意的是,第一组(<120)和最后一组(≥160)都是半闭合区间,此时应该如何设置Wij呢?
通常我们选择第1百分位和第99百分位的数值来辅助进行计算,在本研究中收缩压第1百分位和第99百分位的数值分别为94mmHg和190mmHg,因此第一组的参考值Wij为(94+120) / 2=107,最后一组的参考值Wij为(160+190) / 2 = 175。
对于分类变量,如性别,此时我们可以设置女性为参照,即参考值Wij为0,那么男性就自然赋值为1,同理,不吸烟设置为0,吸烟为1。
3. 确定各个危险因素的基础分险参考值WiREF
对于每一个危险因素,我们需要选择一个合适的分组来作为基础风险参考值WiREF,在后续构建评分工具时,该组分值将记为0分,危险因素的值高于WiREF时记正分,得分越高则风险越高,相反低于WiREF时记负分。
在本研究中,我们选择年龄30-39岁、女性、血压120-129mmHg和不吸烟对应的参考值Wij,作为每个危险因素的基础风险参考值WiREF。
4. 计算每一个危险因素的分组与基础风险参考值之间的距离D
结合多因素Logistic回归模型估计的回归系数βi,以及危险因素各组的参考值Wij,来计算危险因素的每一分组与基础风险参考值WiREF之间的距离D,计算公式为D = (Wij-WiREF)*βi
例如在本研究中,年龄的基础风险参考值WiREF为34.5,年龄在Logistic回归中对应的回归系数βi为0.0575,那么对于70-79岁组,其参考值Wij为74.5,该组与基础风险参考值的距离即为(74.5-34.5)*0.0575=2.3000。
同理,其他危险因素也按照上述公式计算每个分组到基础风险参考值的距离D。
5. 设定评分工具中1分对应的常数B
我们需要设定评分工具中每记1分时,对应的各个危险因素变化的常数。例如本例中,如果设定年龄每增加5岁时记为1分,那么此时常数B = 5*βi = 5*0.0575 = 0.2875。
6. 计算危险因素每个分类对应的分值Pointsij
在第5步确定常数B的基础上,计算危险因素每一个分类所对应的分值,计算公式为Pointsij = D/B = (Wij-WiREF) * βi /B,最后将计算出来的数值四舍五入取整,即为该组对应的分值。
例如本研究中收缩压≥160组,其计算的分值为0.8325/0.2875=2.8957,四舍五入取整为3分。
7. 计算总分与风险预测概率的对应表
根据第6步的结果,将每个危险因素的分值相加起来计算总分,理论上每个危险因素取最低值时,可以得到总分最低值为0+0+(-1)+0= -1,同理可得到总分最高值为8+5+3+3=19,因此总分的范围为:-1~19分。
然后再根据多因素logistic回归模型的方程,来计算每一分值对应的风险预测概率值,计算公式如下:
以此类推,即可算出总分与风险预测概率的对应表,如下表所示。
至此,一个基于多因素Logistic回归模型构建疾病风险预测的评分工具就已经做好了,是不是感觉又get了一项高大上的技能呢!虽然看上去步骤有点多,过程有点复杂,但是如果按照小咖讲的一步一步做下来,相信这么聪明的你一定不会被难倒的。
评分工具与Logistic回归模型结果比较
风险评分工具已经新鲜出炉,为了进一步验证它的准确性,我们举一个实例,来比较一下评分工具与原始Logistic回归模型预测结果之间的差距。
假设有一位男性患者,75岁,收缩压150mmHg,否认吸烟,来预测他未来5年冠心病的发生风险。
首先,我们根据评分工具里各个危险因素的分值,分别记为5、8、2和0分,总分为15分,查表对应的风险概率为12.93%。
然后,我们再根据多因素logistic回归模型进行一次计算:
可以看出,评分工具与Logistic回归模型预测结果之间仅仅只相差2%,足够满足疾病风险预测评估的要求,而且应用起来也很直观和便捷。
本期我们以多因素Logistic回归模型为例对评分工具进行了介绍,先留给大家慢慢消化一下。往往在很多时候,我们在研究中还应考虑事件发生的时间因素,需要用Cox回归来构建疾病预测模型,此时又该如何将其转化为风险评估工具呢?小咖会在后续的内容中来向大家继续进行讲解。
扫码关注“医咖会”公众号,及时获取最新统计教程!
百度浏览 来源 : 医咖会
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)