医微客 - 详细教程：基于Logistic回归模型构建疾病风险评分工具

详细教程：基于Logistic回归模型构建疾病风险评分工具

临床研究

2019-10-25

3532 0

我们在前期介绍Framingham Heart Study的文章中《历经70年，发文3000多篇，致敬如此伟大的研究！》，提到Framingham Heart Study在探讨疾病危险因素和构建风险预测模型方面，做出了很大的贡献。

其中1998年Framingham Heart Study发表了一个经典的冠心病10年风险预测评分工具，该风险函数成为美国国家胆固醇教育计划（NCEP）成人治疗方案（Adult Treatment Panel，ATP）计算冠心病风险的基础。

该模型不再使用原有的连续变量形式，而是将危险因素进行分层，对每一分层进行量化赋分，最后通过计算总分来对患者进行疾病风险评估，评分工具不仅有助于患者理解，也能够在临床中得到较好的推广应用。

如果说只是单纯的构建疾病风险预测模型，相信大家应该都比较熟悉，至少大家也都用过Logistic回归、Cox回归等这些常用的回归模型。但是如何将自己构建的预测模型转化为风险评分工具，似乎成了一个难题。

今天小咖就以多因素Logistic回归模型为例，给大家逐步解密，教会大家也能做出这种高大上的疾病评分工具。

研究实例

我们仍以Framingham Heart Study为例来进行说明，研究共纳入9443名健康人群，年龄为30-79岁，对研究对象随访5年，观察他们冠心病硬终点的发病情况，包括心肌梗死、死亡。

假定我们要考虑的主要危险因素包括：年龄、性别、收缩压、吸烟，研究人群各个危险因素的分布情况如下表所示，我们在此研究的基础上来制作疾病风险评分工具。

步骤

1. 构建多因素Logistic回归模型

通过构建多因素Logistic回归模型，将我们主要考虑的危险因素纳入到回归模型中，从而估计各个危险因素的回归系数β，OR值及其95% CI，回归结果如下表所示。

2. 将各个危险因素进行分类，并指定每组的参考值Wij

我们按照临床意义或使用习惯将各个危险因素进行分组，并在每个分组中选择合适的数值作为参考值Wij，通常选择组内的中间值作为参考值。

例如在本例中，研究人群的年龄范围为30-79岁，通常我们按照10岁一个年龄段来进行划分，将其分为5组，每组选择中间值为参考值Wij，例如30-39岁这一组的参考值Wij为(30+39) / 2 = 34.5。

本研究中血压的范围为78-240mmHg，我们按照高血压指南的诊断切点来进行划分，每10mmHg为一组，共分为5组，每组选择中间值为参考值Wij。但这里需要注意的是，第一组（<120）和最后一组（≥160）都是半闭合区间，此时应该如何设置Wij呢？

通常我们选择第1百分位和第99百分位的数值来辅助进行计算，在本研究中收缩压第1百分位和第99百分位的数值分别为94mmHg和190mmHg，因此第一组的参考值Wij为(94+120) / 2=107，最后一组的参考值Wij为(160+190) / 2 = 175。

对于分类变量，如性别，此时我们可以设置女性为参照，即参考值Wij为0，那么男性就自然赋值为1，同理，不吸烟设置为0，吸烟为1。

3. 确定各个危险因素的基础分险参考值WiREF

对于每一个危险因素，我们需要选择一个合适的分组来作为基础风险参考值WiREF，在后续构建评分工具时，该组分值将记为0分，危险因素的值高于WiREF时记正分，得分越高则风险越高，相反低于WiREF时记负分。

在本研究中，我们选择年龄30-39岁、女性、血压120-129mmHg和不吸烟对应的参考值Wij，作为每个危险因素的基础风险参考值WiREF。

4. 计算每一个危险因素的分组与基础风险参考值之间的距离D

结合多因素Logistic回归模型估计的回归系数βi，以及危险因素各组的参考值Wij，来计算危险因素的每一分组与基础风险参考值WiREF之间的距离D，计算公式为D = (Wij-WiREF）*βi

例如在本研究中，年龄的基础风险参考值WiREF为34.5，年龄在Logistic回归中对应的回归系数βi为0.0575，那么对于70-79岁组，其参考值Wij为74.5，该组与基础风险参考值的距离即为（74.5-34.5）*0.0575=2.3000。

同理，其他危险因素也按照上述公式计算每个分组到基础风险参考值的距离D。

5. 设定评分工具中1分对应的常数B

我们需要设定评分工具中每记1分时，对应的各个危险因素变化的常数。例如本例中，如果设定年龄每增加5岁时记为1分，那么此时常数B = 5*βi = 5*0.0575 = 0.2875。

6. 计算危险因素每个分类对应的分值Pointsij

在第5步确定常数B的基础上，计算危险因素每一个分类所对应的分值，计算公式为Pointsij = D/B = (Wij-WiREF) * βi /B，最后将计算出来的数值四舍五入取整，即为该组对应的分值。

例如本研究中收缩压≥160组，其计算的分值为0.8325/0.2875=2.8957，四舍五入取整为3分。

7. 计算总分与风险预测概率的对应表

根据第6步的结果，将每个危险因素的分值相加起来计算总分，理论上每个危险因素取最低值时，可以得到总分最低值为0+0+(-1)+0= -1，同理可得到总分最高值为8+5+3+3=19，因此总分的范围为：-1~19分。

然后再根据多因素logistic回归模型的方程，来计算每一分值对应的风险预测概率值，计算公式如下：

以此类推，即可算出总分与风险预测概率的对应表，如下表所示。

至此，一个基于多因素Logistic回归模型构建疾病风险预测的评分工具就已经做好了，是不是感觉又get了一项高大上的技能呢！虽然看上去步骤有点多，过程有点复杂，但是如果按照小咖讲的一步一步做下来，相信这么聪明的你一定不会被难倒的。

评分工具与Logistic回归模型结果比较

风险评分工具已经新鲜出炉，为了进一步验证它的准确性，我们举一个实例，来比较一下评分工具与原始Logistic回归模型预测结果之间的差距。

假设有一位男性患者，75岁，收缩压150mmHg，否认吸烟，来预测他未来5年冠心病的发生风险。

首先，我们根据评分工具里各个危险因素的分值，分别记为5、8、2和0分，总分为15分，查表对应的风险概率为12.93%。

然后，我们再根据多因素logistic回归模型进行一次计算：

可以看出，评分工具与Logistic回归模型预测结果之间仅仅只相差2%，足够满足疾病风险预测评估的要求，而且应用起来也很直观和便捷。

本期我们以多因素Logistic回归模型为例对评分工具进行了介绍，先留给大家慢慢消化一下。往往在很多时候，我们在研究中还应考虑事件发生的时间因素，需要用Cox回归来构建疾病预测模型，此时又该如何将其转化为风险评估工具呢？小咖会在后续的内容中来向大家继续进行讲解。

扫码关注“医咖会”公众号，及时获取最新统计教程！

百度浏览来源 : 医咖会

分享：微信新浪微博 LinkedIn QQ好友 QQ空间豆瓣复制网址收藏夹打印

发表评论

注册或登后即可发表评论

登录注册

全部评论(0)

没有更多评论了哦~

科研资讯更多>>

肿瘤电场治疗Optune Lua获批治疗..

成本更低的实体瘤抗癌新星：CAR-..

文献速递-子宫内膜癌中的卵黄囊..

Nature|MSCs首次用于人体跟腱病..

推荐阅读更多>>

一位希腊老先生，竟能掌控中国上..

最新版：本科、硕士和博士有何区..

梅西，你球踢得再好，也不如“发..

他不是药神：走私印度白血病仿制..

临床研究

详细教程：基于Logistic回归模型构建疾病风险评分工具

相关阅读
热门专题
推荐期刊
学院课程

医药卫生
期刊级别:国家级期刊
发行周期:暂无数据
出版地区:其他
影响因子:暂无数据
中华肿瘤
期刊级别:北大核心期刊
发行周期:月刊
出版地区:北京
影响因子:1.90
中华医学
期刊级别:CSCD核心期刊
发行周期:周刊
出版地区:北京
影响因子:0.94

SCI医学论文写作全部..
国自然系列
主讲:医客
第八章：Cover letter..
写作技巧
主讲:医微客
第七章：讨论-变通与..
写作技巧
主讲:医微客

详细教程：基于Logistic回归模型构建疾病风险评分工具

发表评论

全部评论(0)

推荐阅读

临床研究

热门信息

精彩专题

医学科研服务

继教学分

推荐期刊

微客学院