01 背景
随着许多物种基因组测序工作的完成,越来越多的重复序列被人们发现。重复序列在病毒和原核生物的基因组中较少,但在真核生物中广泛存在。以人类基因组为例,其中包含超过 548 万个重复区域 (UCSC 的 hg19 版本注释文件),高达 50% 的人类基因组在本质上是重复的。
这些重复区域按类型可划分为:短散在重复序列 (Short interspersed
nuclear elements, SINEs)、长散在重复序列 (Long interspersed
nuclear elements, LINEs)、长末端重复序列 (Long terminal repeat
elements, LTR)、简单重复序列 (Simple repeats)、低复杂重复 (Low complexity repeats)、DNA 重复、RNA 重复 (包括RNA, tRNA,
rRNA, snRNA, scRNA 等) 和卫星序列等。按家族则可划分为:Alu、MIR、L1、L2、Simple repeats、Low
complexity repeats以及其他等 54 种家族。在这 60 种重复区域家族中,Alu 和 MIR 家族属于 SINE 类型,L1 和 L2 家族属于 LINEs 类型,除 Simple repeats 和 Low complexity repeats 外的其它 54 种家族大部分属于 LTR 和 DNA 重复。经统计,人类基因组 60% 以上的重复属于散在重复序列,其中又以 Alu 和 L1 为主体,二者之和占散在重复序列的 80% 及全基因组重复区40%以上 (图 1.)。
图 1. 重复区域分类及各家族比例。基于 UCSC 网站 hg19 版本基因组重复区 rmsk 文件统计而来[1]。
靶向测序技术可将感兴趣的基因组区域富集后测序,已广泛应用于科研、临床诊断和健康筛查等领域。然而,基于杂交捕获原理的探针涉及重复区域时,可能会在全基因组范围捕获多个与之高度相似片段,从而造成“脱靶”,由此带来的数据浪费和分析难题一直困扰着从业人员。因此,大多数公司针对重复区域设计探针时,均推荐回避策略。
但大量研究表明,部分重复序列富含遗传信息,是基因调控网络的组成成分,与各种信号分子、顺式表达元件共同调节基因的表达。可以预见,在基因组重复区域设计探针的情况在所难免,对重复区域不能简单的全盘否定。对重复区域的风险程度评估,建立设计和筛选安全有效探针的方法,也是目前靶向捕获测序应用研究的重点之一。本文中,我们将分享重复区域杂交捕获的特性,以及设计和改良对应探针的新方法。
02 靶向重复区域探针对捕获测序的影响
我们首先选取了数个具有明确生物学意义的重复区域进行杂交捕获探针设计,共获得 465 条探针。这些探针可以归类为 65 种,覆盖 7 种重复区域类型和 11 种重复区家族 (图 2.)。所有探针涉及的重复区域中有 60% 由 Alu 和 L1 占据,其次 20% 为 LTR,剩下 20% 则由 DNA、RNA、简单重复序列和低复杂重复组成。
图 2. 465 条重复区域探针的分类。
接着,我们在一款有稳定捕获效率的基础 Panel (1910 条探针) 上,对比加入上述 465 条探针前后的捕获表现。结果显示,重复区域探针的加入,使得这款基础 Panel 的中靶率由 92.0% 急剧降低至 12.7% 。对所捕获的脱靶 Reads 分析显示,其中的 99.3% 均与重复区域探针相关 (2,726,408/2,745,629)。然而,每条探针的捕获脱靶 Reads 差别极大。位居前列的少量重复区域探针占脱靶总 Reads 的绝大部分,常被称之为高 (脱靶) 风险探针;而位居末尾的探针则几乎未产生脱靶 Reads,因而是安全探针或 0 脱靶风险探针 (图 3.)。
图 3. 465 条重复区域探针脱靶 Reads 占比分布。
03 探针脱靶评估模型
探针的脱靶表现可通过评估模型来进行预测。纳昂达已通过基于探针真实表现、序列比对和区域类型等信息的训练集,构建了多种机器学习算法模型。其中 3 种评估模型的脱靶预测准确率如图 4. A 所示,当采取“0 脱靶风险”且权衡整体效果策略时,我们认为 K 邻近算法构建的模型为最佳,更适用于重复区域相关探针的脱靶评估。
图 4. 探针脱靶评估模型。A. 三种机器学习算法训练模型评估 465 条探针时的拟合正确率; B.探针脱靶评估结果示例。
存在脱靶风险的探针,常含有重复序列且基因组比对评分较高。事实上,重复序列所属的重复区域类型,也是评估脱靶程度的关键因素之一。以上述 465 条探针为例,它们可按照涉及的重复区类型,基于预测模型进行脱靶影响力评分,并划分为高影响力组、中影响力组、低影响力组。为便于展示对脱靶的影响,我们还依据每一组内的相对高低、数量等因素,共构建了 16 个子 Panel (图 5.
A)。然后,将这 16 个子 Panel 分别与基础 Panel 混合后捕获测序,计算对中靶率的影响,来验证预测结果。结果显示,在同一影响力组内,中靶率随探针数量的降低而显著提高 (图 5. B)。而在探针数量相近但影响力等级不同的情况下,随影响力降低,中靶率也会显著提高 (图 5. C)。这都表明,基因组重复区域的探针脱靶评估,应当考虑其所属的重复区域类型。
图 5. 465 条重复区域探针的分组表现。A. 按重复区域影响力划分的 16 个子 Panel 分组。Panel 分组中的数字代表包含的探针条数;H、M、L 分别代表高、中、低影响力;LL 代表低影响力组中相对低的部分;LH 代表低影响力组中相对高的部分;高影响力组中 Alu 类探针依据是否包含其他重复区类型,分为单一 Alu (Alu_s) 和多重复类型 Alu (Alu_m);B. 同一影响力分组下的子 Panel 分别混入基础 Panel 后的捕获中靶率; C. 近似探针数量的子 Panel 分别混入基础 Panel 后的捕获中靶率。
04 高风险探针改良
探针与靶区域互补配对,具备一定程度的特异性和容错性。高风险探针中导致脱靶的重复序列或碱基,可经由算法模型评估出来,是否也可由机器学习算法模型改良这些序列,在特异性和容错性间寻求的平衡呢?
经过系统的脱靶位点改造和实际捕获表现训练,我们进一步完善了算法模型,使之可按照一定规则修改高风险探针序列。例如,图 5. A 中分别包含 11 和 19 条高风险探针的子 Panel:H11 和 Alu_m19,经序列优化后,可得到新的子 Panel:H11_OPT 和 Alu_m19_OPT。改造后的子 Panel 与基础 Panel 混合捕获结果显示,中靶率由 60% 提升至 90% 以上,即非特异性捕获的 Reads 显著降低 (图 6. A)。同时,这些子 Panel 对应的靶区域,其覆盖度不仅没有降低,反而有显著提升 (图 6. B)。
上述示例说明对高风险探针改良是可行的,具有很大的发展潜力。我们也将在近期推出更多针对重复区域风险探针改良的设计方法及应用产品,敬请关注。
图 6. 高风险探针改良前后的捕获表现。 A. 中靶率对比;B. 深度对比。
基因组重复区域历来是探针设计中的难题。纳昂达经过数年的数据积累及研究,建立了一种评估基因组重复区探针安全性的方法,有助于提高杂交捕获的中靶率。基于模型评估算法,我们找到了一种寻找高风险探针中的特征序列并改良的方法,使得之前“避之不及”的重复区域也易于实现更高的捕获效率。
参考文献
1.http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/rmsk.txt.gz.