医微客 - 利用真实世界数据做好研究：关键的数据质量问题

利用真实世界数据做好研究：关键的数据质量问题

临床研究

1970-01-01

1978 0

作者：李侗桐

2019年1月30日，《Nature Reviews Clinical Oncology》（影响因子：24.653）发表了一篇题为《Real- world data: towards achieving the achievable in cancer care》的综述，以肿瘤领域为例，详细介绍了真实世界数据。

在上一篇文章中，我们用一个表格举例了利用患者、治疗和结局真实世界数据（RWD）的经典研究，详见：利用真实世界数据做好研究，来看诸多经典研究实例。。本文我们来聊一聊真实世界数据质量的相关问题。

原始数据的质量

在使用RWD的研究中，原始数据的质量取决于数据完整性和准确性。一个关键问题在于数据随机缺失（missing at random）的程度：随机缺失数据会减低测量的准确性，而非随机缺失会导致结果偏倚。

因此，研究者需要仔细判断数据的真实性（即该数据是否可以反映真实的情况）和可靠性（即收集的数据是否具有一致性）。除了数据质量，还需要考虑数据的全面性。RWD的多数来源都缺少对患者预后、诊疗和结局信息的记录，例如体能状态、疾病分期、治疗意向及疾病负担等数据，这在疗效比较研究中尤其重要。

一些新型RWD尝试通过纳入其他的患者/疾病相关变量来解决这一问题。2018年的一项研究中，Khozin等利用电子健康档案（EHR）数据分析真实世界中纳武单抗（nivolumab）与派姆单抗（pembrolizumab）治疗非小细胞肺癌的结局差异。但是，以往常见的RWD数据来源中并不包含这项研究关注的预后指标，如吸烟情况和生物标记物信息等（包括PD-L1、EGFR或ALK）。

针对这种情况，研究者可以通过增加新的数据源来保证RWD研究数据的全面性。经典的例子如增加患者自评症状或儿童癌症幸存者的受教育情况等。当然，是否可以将其他数据源与癌症登记数据进行关联，取决于研究所在地的法律和伦理限制。

检查数据质量有以下几种方法：通过研究对比病案来源的电子数据和随机抽样的患者数据；通过分析评估电子数据的真实性；通过数据清理，检查数据的逻辑错误，如不可能的出生日期或单个患者进行了多次根治性切除术。

举个例子，我们在一些研究中需分析膀胱癌患者膀胱切除术后的预后，发现电子数据存在问题，就对原始数据进行了全面的复查。例如，关于治疗记录的不同数据来源（如医疗费用记录 vs 医院手术记录）表明，有一些归类到进行过膀胱切除术的膀胱癌患者，可能只是做了膀胱镜检查（限制了数据的真实性）。同时，如果治疗中心的患者数较少，容易发生编码错误，影响数据质量（限制了数据的可靠性）。为避免这种偏倚，我们获取了所有膀胱癌患者的原始病理报告，复核了所有患者的原始记录，找出进行了膀胱切除术的患者及其疾病分期。

影响原始数据质量的因素包括：数据的收集方式（被动收集与主动收集），调查员能力、培训和监督，外部因素（如收集数据对医生收入/医院资金的影响或对数据完整性的重视程度），数据审核的周期和程度等。

在被动收集数据的癌症注册登记中，数据是由参与机构定期提交给总中心机构，监管力度小（例如使用定期自动数据采集）。而主动收集数据的癌症注册登记，是由经过培训的调查员（如癌症登记员）主动收集相关病例并提交给总中心机构。

数据关联的质量

多数RWD研究的数据来自于多个数据集，分析之前需要先将不同数据集进行关联。在理想情况下，不同数据集可以通过一个唯一编号进行关联。例如，加拿大安大略省只有一个医保支付方，可以通过政府规定的医保号关联数据集。另一种关联方法是概率关联，即通过一组变量（如年龄、姓名或住址）判断不同数据集之间的匹配程度，根据各变量计算一个分数，设定阈值后判断是否匹配[1]。当然，概率关联比唯一编号关联的准确性要差一些。

衍生变量的质量

在RWD研究中，最费时费力也是最关键的步骤就是确定患者、治疗和结局的分组，这被称为患者组别或暴露的“拆分和重组”。研究者必须在结果分析前确定分组标准，否则容易为了获得期望结果而随意调整分组。即使不是刻意寻求期望结果，研究者尝试不同分组的过程也会增加出现期望结果的可能性。

此外，不规范的情况下，研究者可能也不会记录在分析过程中尝试过的不同分组标准。临床试验是事前确定患者亚组，但RWD多为事后分组。RWD的患者分组应咨询临床医生的意见，根据临床意义进行分组。

例如，我们在研究膀胱癌和肺癌的诊疗模式时，依据推断出的治疗意向进行分组。即根据临床观点和经验，定义术后16周内接受的化疗和放疗为辅助治疗，16周后因为疾病进展而开始的治疗为姑息治疗。

同时，我们还分析了变量值的分布情况从而判断截断点的合理性。举例来说，如果我们设置截断点为6周，即缩短术后时间，我们可能会错误地排除一些接受辅助治疗的患者；如果我们设置截断点为32周，即延长术后时间，我们可能会错误地纳入了一些通过化疗治疗早期转移疾病的患者。

当然，哪种尝试都不是完美的，对治疗意向的间接推断应该一直保持谨慎。这个探讨晚期膀胱癌患者膀胱切除术的研究，可能会得出错误的结论，因为依据的是衍生变量，很可能将更早期的癌症患者（接受根治性治疗）错分为（既往经历过膀胱切除术的）姑息治疗患者。

正因如此，研究者自行分组的数据集质量可能比根据医院诊断编码判断分组要差一些。英国研究者提出了RWD质量评估办法，对许多概念做了定义[2,3]。此外，《JAMA Surgery》也在2018年发表了一系列文章，为改善数据库研究的科学性提供了帮助[4]。

下一篇内容我们将通过研究实例，详细阐述如何利用患者、治疗和结局真实世界数据来开展研究，敬请关注！

参考文献：

1. When to conduct probabilistic linkage vs. deterministic linkage? A simulation study. J Biomed Inform. 2015; 56: 80-6

2. Directory of clinical databases: improving and promoting their use. Qual Saf Health Care. 2003; 12(5):348-52.

3. Potential use of routine databases in health technology assessment. Health Technol Assess. 2005; 9(20):1-92, iii-iv.