1. 合作背景
ctDNA 为肿瘤细胞释放至血液中的 DNA 小片段,可以直接采集血液获取,不需要穿刺或创伤性镜腔取样等方式获得,具有收集方便、快速的特点,同时,在检测肿瘤微小残留灶以及难以提取的转移病灶上,ctDNA 检测更能发挥分子病理诊断的作用,实时监测肿瘤复发。然而从 2016 年 4 月,液体活检首次写入我国肺癌指南开始[1-2],虽然不断有相关报道介绍液体活检的应用,但是依旧存在与活体组织相比,检出阳性率低的问题。低频检出的有效性不足是其中的重要原因。
高通量测序平台检测低频变异,尤其是变异频率 <1% 时,真实变异容易淹没在样本保存、核酸建库扩增和二代测序过程中引入的背景噪音中。通过带有分子标签(Unique Molecular Identifier, UMI)的接头对原始 DNA 标记,结合比对和同源簇(consensus family)分析,可有效排除 DNA 损伤、PCR 扩增错误、测序错误等环节引入的假性突变[3-4]。
图 1|双端分子标签错误校正示意图。有相同双端分子标签及起始分子的多个测序读长(reads),通过链一致性分析成为单个读长,进行错误校正。互补双链的同源簇分析则可进一步错误校正。
由于部分 DNA 分子未能完整连接双端接头或序列损伤等原因,可能仅有单链被转化测序。此时即使增加测序量,这部分“迷失了另一半”的分子始终无法形成双链一致性序列(Duplex Consensus Sequence,DCS),故 fgbio 类的 DCS 过滤分析对数据的使用率受限。而 Sentieon 流程则相对灵活,根据对 Consensus 序列的每个碱基赋值以期保留更多原始序列中的可用信息。
图 2|随机抽样模拟不同测序深度下的一致性序列深度。
另一方面,fgbio 根据成簇的 family 进行 DCS 的过滤,因此严重依赖测序深度。测序深度的增加和庞大的数据量又进一步导致数据分析时间漫长,隐形中提高了测序和分析成本。Sentieon 独有的 Consensus 模块以及 TNscope 算法,则可明显缩短分析时间。
本文将重点展示具体实验流程及数据分析对比。
2. 分子标签文库构建和捕获方法
测试使用纳昂达 NadPrep® 在 Illumina® 和 MGI 平台的分子标签文库构建及靶向捕获产品。使用的肺癌 0.1% ctDNA 标准品来自于菁良科技(货号:GW-OCTM007),模拟低频突变样本来自于 2 个已知背景的健康捐献者 cfDNA 的混合(图 3)。文库构建时分别使用 200 ng 0.1% 标准品 DNA(超声打断)和 25 ng cfDNA 混合物起始量,实验操作均严格按照产品说明书进行。
图 3|模拟低频突变样本示意图。将 2 个已知背景的健康捐献者 cfDNA 按照不同比例混合,模拟 0.1%-0.3% 的低频突变。
3. 数据分析方法
fgbio+VarDict:fgbio(version 0.8.0)是一款免费开源分析软件,提供有多种分子标签过滤方法以适应不同情况,通常以 DCS211(consensus group 包含至少 2 条 reads,正负链 reads 至少各1条)过滤为主,故本文采用此过滤方式。VarDict 是一款主流的高灵敏度突变分析软件,可对 fgbio 生成的 bam 文件进行低频突变分析。
Sentieon:Sentieon(Release 202010)是一款著名的生物信息分析加速软件,其中的分子标签分析流程使用独有的 Consensus 模块以及 TNscope 算法,可明显缩短分析时间。Sentieon 对数据进行 Consensus 分析后,直接使用 TNscope 算法过滤和检测突变,实现高质量突变结果分析。
4. 具体表现
4.1 分析时长
Sentieon 支持多线程分析,本次测试中 Sentieon 设置线程数为 10。fgbio 和 VarDict 均不支持多线程,但 fgbio 可通过分割数据加快速度。为尽可能保持一致,fgbio 分析前将 fastq 数据分割 10 份分别运行,然后合并 bam 文件后用VarDict 检测突变。fgbio+VarDict 和 Sentieon 分析时长情况见下表,结果表明 Sentieon 分析时长显著低于 fgbio+VarDict 的组合,可极大缩短分析时间。
如果不进行数据分割,Sentieon 流程耗时仅为 fgbio+Vardict 的 10%,而且当提供更多线程时,还可进一步提高运行速度。
表 1 | 2 种方案耗时计算
4.2 标准品突变位点的灵敏度分析
fgbio+VarDict 流程在DCS211 过滤条件下,其有效平均 DCS 深度为 4,128X。此深度下仅可检测到其中 6 个位点。Sentieon 因囊括了不同来源过滤后的reads,其有效平均深度为17,210X。此深度下可全部检出突变位点。(表2)。
表 2 | 2 种方案检测标准品中已知突变情况
二者的检测原理有所不同,并因此带来了分析结果的差异。fgbio 根据成簇的family 进行 DCS 的过滤。过滤条件越严格,数据利用率越低,可能在有限深度下造成漏检。Sentieon 流程兼顾不同来源的 reads,提升了数据利用率,因此在同等的有限深度下可实现更高的检出率。为评估这种灵敏度提升与过滤条件关系,我们则通过观测整体突变情况来进一步分析。由于标准品制备的特殊性,无法在 8 个已知位点外判断突变信号的真实性,故此处假设前提为:两个流程共同检测到的突变为真阳性,不一致的突变为“背景噪音”。分析发现,在所有变异频率、1% 变异频率和 0.1% 变异频率的设置下, Sentieon 流程引入的“背景噪音”均显著低于 fgbio+VarDict 流程(表3)。
表 3 | 标准品总体突变情况
4.3 阳性预测值分析
分析双端分子标签时要求冗余测序以确保每个原始 DNA 分子都能被测到足够的次数。随着测序深度提高,单链/双链一致性 reads 形成率会明显提升,提高检测灵敏度。然而,实际应用过程中,冗余测序必须考虑到测序成本因素。因此,我们使用模拟低频突变样本,评估两种分析方法在不同测序深度时,灵敏度(Sensitivity)和阳性预测值(PPV)上的差异。LI-cfDNA 的 57 个纯合位点模拟突变频率为 0.3%,70 个杂合位点模拟突变频率为 0.15%;LM-cfDNA 模拟的突变频率则分别为 0.2% 和 0.1%。Sentieon 软件和 fgbio+VarDict 流程分别进行 5 次重复降采集数据分析的结果显示,不同分析方法间存在差异(图 4)。
图 4|Sentieon 和 fgbio+VarDict 对模拟低频突变的 downsample 分析结果。
就灵敏度而言,Sentieon 流程分析 0.3% 突变频率时,10,000X-80,000X 测序深度下均可达到 98% 以上;分析 0.2%、0.15% 和 0.1% 突变频率时,随着测序深度 10,000X-50,000X 增加,灵敏度也从 ~70% 提高到 ~90%。fgbio+VarDict 流程分析时,灵敏度则随着测序深度提高而增加,有着较为明显的线性关系。对比发现,在较低测序深度下(10,000X-20,000X),Sentieon 的灵敏度显著高于 fgbio+VarDict 流程;但当深度增加至 50,000X 时,二者则相差不大。
令人欣喜的是,Sentieon 流程分析在不同测序深度下均可达到高达 90% 的阳性预测值。这说明其分析时达到的高灵敏度,并未以牺牲阳性预测值为代价。
fgbio+VarDict 流程分析的阳性预测值则随着测序深度的增加显著降低但通过增加额外的过滤条件(支持 reads ≥ 2)可显著提升阳性预测值至 95% 以上,此时会在一定程度牺牲灵敏度。
5.总结
纳昂达早在 2018 年针对高深度液态活检需求推出适配 MGI 和 Illumina® 的双平台 NadPrep® 血浆游离DNA双端分子标签文库构建试剂盒,以及配套靶向捕获 Panel。然而在用户端,数据分析流程的准确度、耗时以及计算成本一直是痛点。Sentieon 与纳昂达联合推出的高深度液态活检分析方案,在节约了测序与运算成本的同时,可达到高准确度的变异检测分析。
联系我们 support@njnad.com 获取 NAD-Sentieon UMI 分析指南,了解更详细的参数设置和结果分析。
纳昂达 NadPrep® 分子标签文库构建及靶向捕获方案产品
Sentieon UMI 流程软件
UMI 处理模块
● 严谨的统计模型重构了建库和测序过程中的各类错误对结果的影响,通过机器学习自动计算样本数据的多维度参数;
● 最大限度的保留和充分利用了所有输入数据的信息,为后续变异检测提供了尽可能全面和准确的统计信息;
● 大幅精简了UMI 流程,仅仅三步即可,UMI 流程整体处理速度对比 fgbio 提高了10-20 倍。
TNscope 模块
● 采用 Sentieon 自主设计算法,支持机器学习模型过滤模块;
● 灵敏度与特异性均超过传统行业标准软件;
● 针对液态活检等高深度测序优化,完整处理的所有高深度测序结果,杜绝随机性;
● 支持肿瘤-正常组织配对,纯肿瘤,肿瘤+正常基线等多种样本类型。
关于纳昂达科技
纳昂达科技秉承 NanoTrans More 的理念,深耕测序行业,竭诚为生命科学领域的用户,包括科研院校、临检机构、产业公司、测序服务商等,提供质量可靠的产品和高效完善的闭环解决方案,助力解码生命奥秘。
纳昂达在北京、南京、上海、广州等地均设有办事处,并在江苏省生命科技创新园拥有超 2,000 平米的研发中心。纳昂达科技集研发、生产、服务于一体,致力于提供靶向捕获整体解决方案。目前产品线覆盖多个测序平台,并与国内多家临检机构与测序服务商建立了密切合作。我们拥有严谨专业的技术团队和全面优质的产品服务及覆盖全国的销售网络,是生命科学领域从业者可靠的合作伙伴。
关于Sentieon
Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升 NGS 数据处理的效率,准确度,和可靠性。
总部位于美国硅谷的 Sentieon 公司成立于 2014 年 7 月,团队成员具有多年的高性能计算,大数据挖掘,和人工智能的经验。自成立以来,Sentieon 多次赢得 precisionFDA 国际生物信息挑战赛的第一名,包括三次临床多组学联合分析AI建模大赛冠军,展现了业内顶级的研发实力。
Sentieon 为来自于分子诊断,药物研发,临床医疗等多个领域的合作伙伴和科研机构提供软件解决方案,共同推动基因技术的发展,实现“成就精准数据,服务精准医疗“的愿景。
参考文献
[1] Aggarwal C, Thompson J C, Chien A L, et al. Baseline plasma tumor mutation burden predicts response to pembrolizumab-based therapy in patients with metastatic non–small cell lung cancer[J]. Clinical Cancer Research, 2020, 26(10): 2354-2361.
[2] 中国非小细胞肺癌患者表皮生长因子受体基因突变检测专家共识(2016版).
[3] Illumina trusight oncology umi reagents datasheet.
https://www.illumina.com/content/dam/illuminamarketing/Documents/products/datasheets/trusight-oncology-umi-reagents-datasheet-1000000050425.pdf
[4] Schmitt M W, Kennedy S R, Salk J J, et al. Detection of ultra-rare mutations by next-generation sequencing[J]. Proceedings of the National Academy of Sciences, 2012, 109(36): 14508-14513.