医微客 - 精准前沿丨肿瘤组织反卷积免疫细胞状态预测结直肠癌术后复发

精准前沿丨肿瘤组织反卷积免疫细胞状态预测结直肠癌术后复发

临床医学

2022-12-09

9106 0

研究背景

根据2018年的统计数据，全球结直肠癌患者死亡的人数约55.1万人。术后复发是结直肠患者死亡的最主要的原因之一。30%到50%的结直肠患者在术后出现复发，且预后较差。研究表明，如果能在早期发现复发风险高的患者，提早进行术后辅助化疗干预或加强随访将有助于减少复发率，延长患者生存期。过去的研究显示，肿瘤分期、是否转移和MSI状态等临床特征能够用于术后复发风险预测。然而，这些特征的预测性能较差。因此，有必要开发更多的新型复发预测生物标志物，提早发现高复发风险人群，指导临床用药和决策。

在肿瘤微环境中存在很多免疫细胞，它们在肿瘤的发生和发展起到重要作用。利用肿瘤浸润免疫细胞作为预测生物标志物正受到越来越多的关注。最近的研究表明，肿瘤浸润免疫细胞（tumor-infiltrating immune cells，TIICs）的类型和特征能够用于预测结直肠癌患者的生存率。免疫微环境中的肿瘤浸润树突状细胞（Tumor-infiltrating dendritic，TIDCs）作为起始免疫应答的关键细胞，也提示与预后良好相关。再者，肿瘤组织CD8效应T细胞和记忆T细胞浸润程度高的结直肠患者的总生存期更长。

为了从肿瘤组织bulk测序数据获得肿瘤浸润免疫细胞的基因组或转录组特征，人们开发了一系列以CIBERSORT为代表的反卷积算法。CIBERSORT的基本原理是线性支持向量回归（linear support vector regression），能够利用复杂组织的组学数据（主要为基因表达矩阵）推断细胞组成比例。MethylCIBERSORT是一款针对肿瘤组织DNA甲基化数据预测免疫细胞浸润的工具。然而，目前这些反卷积算法还存在一定的局限，首先，它的推断依赖于各细胞类型精确的参考图谱，对于没有参考的细胞类型则无法进行研究。第二，很多参考图谱来源于外周血细胞，并没考虑到肿瘤微环境中复杂的细胞活动。例如微环境中免疫细胞的表达异常或甲基化程度改变可能会导致它们向肿瘤相关的细胞类型分化。因此，在构建复发预测模型时，有必要综合考虑外周血细胞和肿瘤组织浸润免疫细胞。本研究通过自建CRC肿瘤浸润免疫细胞（TIIC-like cells）和外周血单核细胞（PBMC-like cells）的DNA甲基化参考图谱，建立了一个适用于bulk肿瘤组织的结直肠癌术后复发预测机器学习模型。该模型不仅成功应用于TCGA数据库的结肠腺癌（colorectal adenocarcinoma，COAD）和直肠癌（rectal adenocarcinoma，READ）数据集，而且具有较强的可解释性。

研究设计

1. 生成用于反卷积的参考细胞甲基化图谱数据

首先，研究者使用流式分选技术，从7位结直肠癌患者的肿瘤组织中，分别分离成纤维细胞、上皮细胞和肿瘤浸润免疫细胞，其中上皮细胞定义为EpCAM+/CD45-、CD4+ T细胞定义为CD4+/Thy-1+/CD45+、CD8+T细胞定义为CD8α+/Thy-1+/CD45-、B淋巴细胞定义为CD79A/CD45+、巨噬细胞定义为CD68+/CD45+，树突状细胞定义为CD11C+/CD45+、成纤维细胞定义为Thy-1+/CD45-以及内皮细胞定义为CD31+。此外，提取患者血液中的PBMC并分离CD4+、CD8+、树突状细胞和单核细胞。接着，对分选的细胞使用靶向重亚硫酸盐测序（targeted bisulfite sequencing）检测CpG岛各个位点（CpG site）的甲基化水平。

2. 建立基于DNA甲基化的细胞组分反卷积模型

利用DNA甲基化数据反卷积算法MethylCIBERSORT计算来自每位患者肿瘤组织的细胞比例。MethylCIBERSORT的核心机器学习算法是v支持向量回归（nu-support vector regression，v-SVR），需要不同细胞类型DNA甲基化图谱作为参考输入。本研究的参考图谱来源于7位CRC患者分选细胞后的DNA甲基化测序。MethylCIBERSORT分析分成两步，第一步是利用参考图谱得到每种细胞的特征矩阵（signature matrix）。第二步是利用CIBERSORT在线工具对signature matrix和肿瘤组织bulk的DNA甲基化水平矩阵进行反卷积，最终得到每位患者（或肿瘤组织）的每种细胞比例和甲基化水平。

3. 生成机器学习模型训练和测试数据集

回顾性纳入SMC队列（ENA数据库：PRJEB50005）。该队列共包含114例结直肠患者。他们的术后平均随访时间长达5年，其中有46例发生复发和64例未见复发。对这些患者的肿瘤组织进行靶向DNA甲基化测序。

4. 构建结直肠癌术后复发预测模型

本研究使用三种基于决策树的集成模型，分别是极度随机树（Extremely Randomized Trees，ExrRa Trees）、极度梯度提升（extreme gradient boosting，XGBoost）和随机森林（random forest），用于结直肠癌患者复发预测模型。模型的输入是每位患者肿瘤组织bulk甲基化测序数据，除此之外，还会考虑TNM分期、肿瘤位置和是否转移等特征。模型训练集和验证集的划分和估计机器学习模型性能的统计采用蒙特卡洛交叉验证策略（Monte Carlo cross-validation），70%作为训练集，剩下的30%作为测试集。模型构建和性能评估共迭代100次。在得到稳健的预测模型后，利用TCGA的COAD和READ芯片数据作为验证集。模型性能评估的指标包括ROC曲线下面积（AUC值）和Kappa系数（Cohen’s kappa）。AUC值越接近1，模型复发预测性能越好，Kappa系数评价的是一致性程度。

5. 利用TCGA数据集进一步验证模型性能

从GDC数据库中下载COAD和READ的原发肿瘤组织DNA甲基化芯片数据，只使用了由Illumina Human methylation 450测量的患者肿瘤样本甲基化谱。对于数据中有两个以上的样本来自同一患者的情况，保留CpG位点甲基化水平最高的样本ID。使用Beta值用于衡量每个CpG位点的甲基化水平。患者的临床数据来自cBioPortal数据库，对于无病生存状态为0的患者标记为无复发，数字为1标记为复发。评价MSI状态的MSI MANTIS得分使用默认阈值0.4，高于该阈值定义为微卫星不稳定（microsatellite instable，MSI），低于该值定义为微卫星稳定（microsatellite stable，MSS）。经过以上筛选，TCGA数据集总共纳入106位COAD/READ患者，用于复发预测。为了分析肿瘤位置对复发的影响，本研究还分析含有肿瘤取样位置信息（结肠/直肠和左部/右部）的98位COAD/READ患者。

研究结果

1. 基于免疫细胞反卷积复发预测概述

为了得到用于反卷积的bulk肿瘤组织各细胞类型的参考特征矩阵，研究者首先对来自7位CRC患者的肿瘤组织和PBMC进行流式细胞分选，其中肿瘤组织分选的细胞类型有上皮细胞、成纤维细胞和4种肿瘤浸润免疫细胞（CD4+T细胞、CD8+T细胞、树突状细胞和巨噬细胞），而PBMC分选的细胞类型有4种，包括CD4+T细胞、CD8+T细胞、树突状细胞和单核细胞。接着，对这些分选的细胞进行靶向亚硫酸盐测序，检测CpG岛的甲基化水平（图1）。主成分分析结果显示，同一种免疫细胞但不同组织来源（肿瘤组织和PBMC）的甲基化模式（methylation patterns）区别明显，表明利用DNA甲基化能用于区分肿瘤组织浸润免疫细胞和PBMC的细胞。

将上述测序数据分为三组，一组是同时包含TIIC和PBMC的细胞，其余两组仅包含TIIC或PBMC，作为阴性对照。使用MethylCIBERSORT工具对这三组数据构建甲基化特征矩阵，并以此作为参考，对来自114例CRC患者肿瘤组织DNA甲基化测序进行反卷积。

免疫细胞间的相互作用在抗肿瘤免疫过程中起到关键作用。为了研究免疫细胞组合与肿瘤复发的联系，研究者使用极度随机树算法用于测试所有的细胞类型组合。为了获得可靠的模型预测值，模型按照7:3的比例对数据集进行随机100次分割，获得100次预测结果。最终根据所有预测结果的平均值选择最优的细胞类型组合。

图1. 研究过程概述

2. TIIC+PBMC方法预测结直肠癌术后复发的性能评估

为了找到模型最优的反卷积数据，研究者比较了TIIC+PBMC、TIIC和PBMC三组反卷积数据的模型预测结果，结果发现，基于TIIC+PBMC的方法是最好的，前10种细胞类型组合的ROC曲线下面积（AUC）范围在0.67和0.69（图2A）。对于排名第一的细胞组合，TIIC+PBMC方法显著高于其他两种方法（p value分别是4.5×10^-10和8.3×10^-18）。当仅以肿瘤组织浸润CD8+ T细胞、树突状细胞和PBMC来源的树突细胞作为模型输入时，模型的预测性能是最好的，AUC值达0.69。此外，研究者发现，使用基于TIIC+PBMC方法得到TIIC免疫细胞比例构建的模型预测性能显著高于TIIC方法来源的TIIC免疫细胞比例。同样的，来自TIIC+PBMC方法的PBMC免疫细胞比例构建模型性能也优于PBMC方法。

为了进一步验证上述结果，研究者还分别使用随机森林分类器和XGBoost用于构建模型。结果显示，无论使用哪种机器学习方法，基于TIIC+PBMC的方法的AUC值都是显著高于仅使用TIIC或PBMC。进一步地，研究者发现，与使用原始的甲基化数据相比，对数据进行反卷积有助于提高模型预测性能。这些结果表明，肿瘤组织的免疫细胞存在不同的状态，它们对肿瘤复发的影响也不尽相同。联合使用肿瘤浸润免疫细胞和PBMC浸润免疫细胞的DNA甲基化数据进行反卷积，能使模型达到最优，且与使用某种基于树的机器学习方法无关。

为了研究该模型在其他数据集的预测效果，研究者使用来自TCGA数据库98例的COAD和8例READ的DNA甲基化芯片数据作为验证集。结果显示，基于TIIC+PBMC方法进行反卷积且使用成纤维细胞、上皮细胞、肿瘤浸润巨噬细胞、PBMC浸润CD4+T细胞和单核细胞比例构建模型时，复发预测的性能最好，能到达0.69（图2B）。这些结果表明，本研究提出的模型构建策略也适用于其他的队列。

以往的研究表明，结直肠癌患者手术切除后的复发与是否转移、微卫星不稳定、TNM分期等临床特征有关。本研究发现，将基于TIIC+PBMC方法的细胞反卷积结果与TNM分期、是否转移和MSI状态整合后，模型预测的AUC为0.74（图2C）。与前面结论相似的是，基于TIIC或PBMC的方法，即使在整合临床数据后，模型预测的性能均低于TICC+PBMC方法。在TCGA数据中，性能最好的是MSI状态与基于TIIC+PBMC方法的细胞反卷积结果联合方式，AUC值为0.70（图2D）。另外，研究者发现，患者的肿瘤位置和是否接受辅助治疗并不影响模型性能。

SMC队列的复发和非复发CRC患者的人数比为42：58，但TCGA队列中比例为17：83，存在数据分组不平衡的问题。为了评估这种不平衡是否影响模型构建，研究者在TCGA队列中，分别计算了基于TIIC+PBMC、TIIC和PBMC方法进行模型构建的 Cohen’s kappa系数。结果显示，TIIC+PBMC方法构建的模型一致性检验的kappa系数为0.19，而其他两种方法的一致性分别是0.13和0.11。

为了对模型进行解释，研究者将SMC队列按照模型预测结果，分为复发组和未复发组。接着，以聚类热图的方式展示肿瘤组织浸润CD8 T细胞（TICC-like CD8T）、肿瘤浸润树突状细胞（TIIC-like DC）、PBMC树突状细胞（PBMC-like DC）、是否转移、是否为MSI和TNM在两组的患者分布（图2E）。有趣的是，复发组无监督聚类为三组，分别是NR-1、NR-2和NR-3。NR-1的特点是TIIC-like DCs占比高。有研究表明，DC浸润程度高的CRC患者的总生存期更长。树突状细胞在抗肿瘤免疫中起到重要作用，例如肿瘤抗原呈递和递送抗原到淋巴结，从而启动对肿瘤的免疫应答。第二组（NR-2）的肿瘤浸润CD8+T细胞和树突状细胞丰度较高。树突状细胞能够通过交叉呈递外源抗原，进而激活CD8+T细胞对肿瘤细胞的杀伤。第三组（NR-3）的患者大多属于MSI和具有较高占比的PBMC来源的树突状细胞。MSI的肿瘤一般会产生大量的新生抗原，而这些抗原会使得来自外周血的各种免疫细胞迅速浸润到肿瘤内，发挥相应的抗肿瘤功能。因而，这一组患者一般预后较好。与未复发组不同的是，复发组共分为R-1和R-2两组。R-1组的患者TIIC-like CD8+T细胞和DCs数量较少，而R-2组患者多发生淋巴结转移。

图2. 复发预测模型性能

3. 用于细胞比例反卷积的CpG位点功能富集分析

CpG岛是位于结构基因的启动子核心序列和转录起始位点的一种常见的序列组合形式。在人类基因组中，CpG岛的甲基化程度通常比较高。当CpG到处于高甲基化状态时，基因的转录受阻，表达可能降低。利用CpG岛的基因组位置信息，可以找到相对应的基因。本研究以转录调控元件（包括启动子或增强子）上下游1250 bp为标准对每个CpG位点进行基因注释。首先比较TIIC+PBMC、TIIC和PBMC三种方法构建特征矩阵后的CpG位点数和重叠情况。TIIC+PBMC方法最终得到1616个CpG位点，而TIIC和PBMC方法分别有423个和538个。三者重叠的CpG位点共有16个（图3A）。对反卷积的细胞按TIIC-PBMC、TIIC-TIIC和PBMC-PBMC分组进行差异甲基化位点分析，基于TIIC+PBMC方法有636个差异CpG岛位点（Differentially methylated CpG sites，DMCs），TIIC方法有53个，PBMC方法有72个（图3B）。总体来说，基于TIIC+PBMC方法找到的DMCs多于其他两种方法，表明该方法能够用于区分免疫细胞的不同状态。

图3. 不同反卷积方法差异甲基化位点比较

进一步根据这些DMCs相关基因进行功能富集分析，结果显示，基于TIIC+PBMC方法找到的TIIC-PBMC组差异甲基化位点相关基因主要参与免疫细胞迁移（图3C）。具体的结果是，TIIC-PBMC组显著富集的通路有胸腺细胞迁移（GO：0072679）、细胞外渗正向调节（GO：0002693）和树突状细胞迁移（GO：0036336）；TIIC-TIIC组和PBMC-PBMC组显著富集的通路有免疫应答正向调节（GO：0050778）和中性粒细胞激活（GO：0042119）。PBMC-PBMC组富集的主要通路是淋巴细胞迁移负向调节（GO：2000402）和髓系细胞稳态（GO：0002262）。利用GOmeth工具对来自TCGA的甲基化芯片数据进行富集分析，也得到类似的结果。在基于TIIC+PBMC方法的TIIC-PBMC的DMCs中，有4个CpG位点位于DOCK8基因的增强子区域（图3D）。相比于PBMC组，这四个位点在TIIC来源的CD4+、CD8+ T细胞、DCs细胞和巨噬细胞表现出超甲基化（图3E）。

4. 邻近TIIC-like DCs的免疫反应相关基因的CpG岛发生低甲基化

先前的结果证明，TIIC-like DCs细胞丰度高的CRC患者复发风险较低。利用R包pRF进行特征重要性分析发现，TIIC-like DCs确实是一个重要的特征，且经置换检验，具有统计学差异（p value =9.9x10^-3）。然而，并不是所有的肿瘤浸润DCs都发挥抗肿瘤免疫作用，也有可能抑制免疫应答。为了鉴定模型纳入的TIIC-like DCs的主要生物学功能，研究者收集7个已报道与DCs发挥抗肿瘤免疫应答相关的基因（HLA-DR、CCR7、CD40、CCL22、IFNG、IL1A/B和CD86），并比较它们在TIIC-like DCs和PBMC-like DCs的表达差异。结果显示，除IL12A/B和CD86外，其他5个基因在TIIC-like DCs的甲基化程度均低于PBMC-like DCs（图4A），说明本研究反卷积后的TIIC-like DCs主要扮演促进抗肿瘤免疫应答的角色。以DCs的HLA-DRA基因为例，HLA-DRA是HLAⅡ类α链的一种，主要通过呈递新抗原和激活T细胞参与抗肿瘤免疫。在HLA-DRA增强子上游2500bp区域，较PBMC-like DCs，在TIIC-like DCs中共有30个差异显著的低甲基化位点，且甲基化程度平均低32%左右（图4B）。

图4. 比较TIIC-like DCs和PBMC-like DCs中免疫激活相关基因调控元件的甲基化水平

小结

1）本研究首先对来自CRC患者的TIIC和PBMC进行DNA甲基化靶向测序，接着以此为参照，利用MethylCRIBSORT工具成功将来自其他队列的肿瘤组织反卷积成不同状态的免疫细胞类型，并推断它们的占比和甲基化程度。最后，利用反卷积的结果作为输入，构建了基于树的CRC复发预测机器学习模型。相比于单独使用TIIC或PBMC的甲基化图谱，两者联合使用能提高CRC复发预测模型的性能。相比于直接使用组织的甲基化数据，利用反卷积后的细胞甲基化数据构建的预测模型更优。

2）TIIC和来自PBMC的免疫细胞甲基化表达谱是有差异的，例如与免疫原性DCs相关的基因在肿瘤浸润DCs的甲基化程度明显低于来自PBMC的DCs。

3）本研究构建的CRC长复发预测模型具有较好的鲁棒性，适用于不同人种的队列。整合临床数据能够提高模型的预测性能，其中当只加入组织学形态特征时，模型预测的AUC为0.74。 END

参考文献：

[1] DonghyoKim et al. Deconvolution of bulk tumors into distinct immune cell states predicts colorectal cancer recurrence. iScience. 17 October 2022.

撰写丨xiaosine

编辑、排版丨SX