01 背景
肝细胞癌 (Hepatocellular carcinoma,HCC) 是消化系统常见的恶性肿瘤,也是全球肿瘤死亡的主要原因之一[1, 2]。早期 HCC 患者的症状并不十分明显。肝超声和血清甲胎蛋白 (AFP) 检查是常用的 HCC 筛查方法,但敏感性相对较低[2, 3]。近期研究发现,循环肿瘤 DNA (ctDNA) 携带的表观遗传变异可作为 HCC 无创液体活检的早期生物标志物[4]。
亚硫酸氢盐测序 (BS-seq) 一直被认为是 DNA 甲基化分析的金标准;然而,亚硫酸氢盐处理的剧烈条件对 DNA 造成的损伤巨大,从而导致序列多样性较差,目标富集偏差以及较高的测序误差。这些缺点限制了其在低起始量 cfDNA 分析中的应用。与 BS-seq 相比,相对温和的酶法甲基化测序 (EM-seq) 很可能是 cfDNA 甲基化检测的理想方法。
2023 年 1 月,华侨大学医学院联合万基生物、北京中医药大学厦门医院、厦门大学中山医院等共同开展的一项利用血浆 cfDNA 样本基于酶促靶向甲基化测序分析建立 HCC 筛查模型的研究成果《Hepatocellular carcinoma detection via targeted enzymatic methyl sequencing of plasma cell-free DNA》发表在杂志 Clinical Epigenetics (IF=7.3)。研究采用 EM-seq 和甲基化靶向测序方法对近 600 例患者样本的 > 1,500 个 CpG 位点分析,建立了一种无创的高特异性 HCC 筛查模型。值得注意的是,该研究中使用的甲基化捕获测序定制探针和配套试剂均为纳昂达生物推出的产品。
02 研究方法
• 血浆 cfDNA 样本:
2020 年 11 月至 2021 年 12 月在厦门大学中山医院接受治疗的 244 例 HCC 及 76 例肝脏疾病患者,并随机选取 279 例接受常规保健护理的健康个体作为对照。
• 甲基化靶向捕获测序:
甲基化定制探针 (NAD probes) 及配套液相杂交捕获试剂 (Nadprep Hybrid Capture Reagents) 进行靶向捕获并测序。
• 数据分析:
研究使用 bismark_methylation_extractor (bismark, version 0.23.0) 评估甲基化水平,以-comprehensive -bedGraph -counts -cytosine_report -CX -buffer_size 20G -parallel 16 计算所有 CpGs 的甲基化频率。
03 结果
3.1 EM-seq 转化效率评估
在低甲基化的 CpG 位点 (BS-seq 中 λ DNA 检测值 < 1%) 中,EM-seq 检测到的甲基化值低于 BS-seq (图1. a)。然而,约 1.67% 的低甲基化 CpGs (103 CpGs) 在 EM-seq 中的检测值高于 BS-seq (图1. b)。非 CG 甲基化在大多数人类细胞中很罕见,因此可以被用作甲基化检测的非甲基化内参对照。为了进一步研究不完全转化,本研究从 BS-seq 和 EM-seq 数据中提取了含有 CHs 的 reads。BS-seq 比 EM-seq 观察到更多的 CHs reads (图1. c)。在 EM-seq 中观察到散发性和聚集性 CHs,且 ≥ 3 个 CHs reads 占 EM-seq 中所有 CH reads 的 18.71% (图1. c, d)。相比之下,CH 在 BS-seq 中多为零星分布,≥ 3 个 CHs reads 的比例仅为 BS-seq 中 CH reads 的 6.43% (图1. c, d)。
图 1. EM-seq 中的完全转化。a. EM-Seq 和 BS-seq 获得的低甲基化 CpGs 在 ≥ 3 CHs 过滤前后的甲基化值;b. 比较 EM-Seq 和 BS-Seq 获得的低甲基化 CpGs 中的单个甲基化值;c. 比较 EM-Seq 和 BS-Seq 中具有 0、1、2 和 ≥ 3 CHs 位点的 reads 比例;d. 未甲基化对照 λ DNA的基因组图 (position: 30000–35000) 比较 EM-seq 和 BS-seq 数据集之间的 CH reads。未甲基化和甲基化 CHHs 分别以蓝色和红色显示。
3.2 靶向 EM-seq 筛选甲基化标志物
由于全基因组甲基化深度测序的成本过高,本研究利用 EM-seq 结合甲基化定制探针的靶向捕获测序来分析肝细胞癌患者和非肝细胞癌对照组的血浆 cfDNA (图2. a)。
纳昂达 Tips:在 cfDNA 连接上甲基化修饰的接头后进行酶转化处理,并使用双端唯一Index 引物进行扩增。在深度测序前,通过定制的甲基化探针组合以混合杂交的方式富集目标区域。相较于全基因组甲基化测序,靶向捕获测序能够精准捕获到关注的目标区域,结合更高深度的测序方式以提高检测灵敏度。
图 2. 靶向 EM-esq 和目标标志物选择。a. 靶向甲基化测序的整体流程;b. 选择用于定制化探针设计的 89 个甲基化标志物的无监督层次聚类分析。
为了寻找潜在的 HCC 检测生物标志物,本研究分析了 HCC 和非 HCC 组织的表达谱数据和甲基化数据,并从 HCC 低表达基因中筛选甲基化程度相对较高的 CpGs。然后,利用全血 DNA 甲基化数据剔除血液中平均甲基化水平高于 HCC 的CpGs (图2. b)。为了尽可能多地覆盖与 HCC 相关的 CpGs,研究中也纳入了其他适合 HCC 检测的 CpGs。最后,研究设计了覆盖 1,595 个 CpGs 的探针组合用于后续分析。
本研究使用 HepG2 细胞 DNA 和血浆 cfDNA 来评估靶向 EM-seq 的性能。以 20 ng 的片段化 DNA 投入,靶向 EM-seq 实现了相对较高的 DNA 回收率,中靶率达 60-70%,中位Unique reads 深度超过 800× (图3. a)。此外,本研究证实了靶向 EM-seq 技术重复检测到的甲基化水平的一致性 (图3. b) 以及覆盖深度的一致性 (图3. C)。片段化分布分析显示,cfDNA 的长度特征包括主峰约 167 bp 和间隔 10 bp 的小峰 (图3. d)。
图 3. 靶向 EM-seq 的性能评估。a. 相同投入量下 EM-seq 和 BS-seq 的 Unique reads 深度 (去重后);b. 靶向 EM-Seq 检测的单个 CpG 甲基化值在技术重复之间的一致性;c. 20 ng 片段化 DNA 投入下靶向 EM-seq 文库的 CpGs 的覆盖深度在技术重复之间的一致性;d. 来自健康个体的血浆样本的片段化分布。
3.3 利用 cfDNA 样本检测 HCC
为了建立 HCC 筛查的预测模型,利用靶向 EM-seq 分析了 596 例血浆样本。将这些样本随机分为训练集 (n = 417,正常对照组 = 195,肝脏疾病 = 54,HCC = 168) 用于模型训练,以及测试集 (n = 179,正常对照组 = 84,肝脏疾病 = 22,HCC = 73) 进行模型测试。本研究通过两次技术重复的杂交捕获分析,确认了 20 个血浆样本的甲基化水平的一致性。研究设计如图4. 所示。
图 4. 构建堆叠式 HCC 筛查模型的工作流程图
应用梯度提升决策树 (gradient boosting decision tree, GDBT) 机器学习分析对包含 168 例 HCC 和 195 例正常对照的训练队列进行处理,生成了具有 37 种标志物的 HCC-正常模型 (HN 模型)。HN 模型在训练集中的灵敏度为 87%,特异性为 97% (曲线下面积 AUC = 0.977),在测试集中的灵敏度为 90%,特异性为 94% (AU C = 0.959) (图5. a)。对包含 168 例 HCC 和 54 例肝脏疾病样本进行同样地分析,生成了具有 264 种标志物的 HCC 与肝脏疾病模型 (HL 模型)。HL 模型在训练集中的灵敏度为 90%,特异性为 72% (AUC = 0.915),在测试集中的灵敏度为 92%,特异性为 84% (AUC = 0.948) (图5. b)。将两组取并集共得到 283 个标志物。这些标志物的甲基化水平在训练集和测试集中的 HCC 和非 HCC 样本之间都存在显著差异,并且随着疾病阶段的进展而增加 (图5. c)。
图 5.HCC 筛查模型的构建和验证。a & b. 训练数据集 (a) 和测试数据集 (b) 中使用甲基化标志物的三个模型的 ROC 曲线;c. 在训练数据集和测试数据集中用于 HCC 筛查模型构建的 283 个甲基化标志物的无监督层次聚类分析。
接下来,研究使用逻辑回归方法利用 HN 和 HL 模型的预测值构建了一个 283 个标志物的肝癌筛查堆叠式模型。试验数据证实了对过拟合风险的适当控制。堆叠式模型输出的 HCC 肿瘤评分 (t-score) 能够有效区分 HCC 患者和非 HCC 个体 (图6. a)。
3.4 亚组分析及 AFP/PIVKA‑II 的比较
本研究最后进行了亚组分析及 AFP/PIVKA‑II 的比较。结果表明,HCC 筛查的堆叠式模型在不同组别中实现了高敏感性和高特异性。敏感性随着疾病分期进展而提高,在测试集中,Ⅰ 期患者的敏感性为 85% (35/41),Ⅱ 期为 89% (8/9),Ⅲ-Ⅳ期为 100% (23/23) (表1. )。类似地,t-score 与肿瘤分期之间也存在良好的相关性。早期疾病 (Ⅰ 期、Ⅱ 期) 患者的 t-score 明显低于晚期疾病 (Ⅲ 期、Ⅳ 期) 患者 (图6. b)。在测试集中,正常对照组的特异性为 99% (1/84),肝脏疾病样本的特异性为 91% (2/22) (表1. )。
在 HCC 患者中,堆叠式模型对早期和晚期 HCC 的检测准确性均优于 AFP (图6. c),并在 AFP 阴性患者中实现了较高的检测准确性。缺乏维生素 K 诱导的蛋白-II (PIVKA-II) 是 HCC 的另一个潜在筛查标志物。对于早期和晚期 HCC 的检测,堆叠式模型的检测准确性也优于 PIVKA-II (图6. d),并在 PIVKA-II 阴性患者中实现了较高的检测准确性。
图 6. HCC 筛查堆叠式模型的进一步评估。a. 堆叠式模型在正常对照、肝脏疾病患者和 HCC 患者中的 t-score;b. 早期和晚期 HCC 患者的 t-score;c. 堆叠式模型和 AFP 在早期和晚期 HCC 患者中的阳性检出比例 (测试集);d. 堆叠式模型和 PIVKA-II 在早期和晚期 HCC 患者中的阳性检出比例 (测试集)。
表1. 测试集中 HCC 筛查的堆叠式模型的性能
04 总结
本研究表明,EM-seq 的不完全转化特征是测序 reads 中 CHs 的聚类现象。对 ≥ 3 个 CHs 的 reads 进行过滤可以显著降低 EM-seq 甲基化检测的噪音。基于对血浆 cfDNA 进行靶向 EM-seq 分析的 HCC 筛查预测模型能够有效区分 HCC 患者和非 HCC 个体,并在早期患者的检测中表现出良好的性能,其为 HCC 筛查提供了一种无创的高特异性方法。考虑到表观遗传变异在大多数肿瘤发展中普遍存在,该策略可用于单个血液样本中早期检测其他癌症类型或多种癌症类型。
产品推荐
一站式个性化探针定制服务
NAD Probes 定制探针方案是纳昂达倾力打造的一站式服务,涵盖从探针设计、生产合成、质检及优化的全流程。通过严格品质控制和优化的 NGS QC 服务,可提供高质量定制化杂交捕获解决方案,覆盖应用类型除常规突变检测外,还包括:甲基化捕获、RNA 捕获、病毒捕获等。同时,XCapert 探针在线设计平台是纳昂达基于超过 100 万条探针验证优化的设计算法,可对探针靶向捕获结果预评估,予以分级选取推荐。无论设计靶向 DNA、RNA Panel,还是甲基化、微生物应用,一应俱全。此外,无论是新 Panel 设计,还是原方案升级,均可经简单操作完成,因此受到国内外用户的广泛认可和使用。
• 每条探针序列明确,浓度已知
• ISO13485 体系生产标准,结果均一稳定
• 覆盖度均一性好,GC 偏好性小
• 支持 spike-in 至其它 NadPanel 或定制 Panel
• 支持多样本混合捕获
参考文献
[1] Zheng R, Qu C, Zhang S, et al Liver cancer incidence and mortality in China: temporal trends and projections to 2030. Chin J Cancer Res.2018;30(6):571.
[2] Singal A, Volk ML, Waljee A, et al Meta-analysis: surveillance with ultrasound for early-stage hepatocellular carcinoma in patients with cirrhosis. Aliment Pharmacol Ther. 2009;30(1):37–47.
[3] Shu Y, Wu X, Tong X, et al Circulating tumor DNA mutation profiling by targeted next generation sequencing
[4] Oh T, Kim N, Moon Y, et al Genome-wide identification and validation of a novel methylation biomarker, SDC2, for blood-based detection of colorectal cancer. J Mol Diagn. 2013;15(4):498–507.