摘 要
本发明公开用于完整端粒扩增子测序的组合物、预文库及其构建方法。本发明设计了一种端粒特异性温控锚定接头,为端粒添加该接头时,能够区分和富集完整端粒末端,并避免非完整末端被建库。此外,本发明在端粒序列附近的基因组序列上还设计了针对端粒扩增使用的端粒特异性PCR引物,在连接接头后不需要进行酶切处理,同时也不需要再在片段两端添加通用接头,进一步简化了实验流程。
背景技术
端粒是位于真核生物线性染色体末端,由端粒DNA重复序列和相关蛋白质构成的复合物。由于线性染色体的DNA复制机制,使得细胞的每次分裂导致端粒缩短。端粒的变化与多种疾病密切相关,如癌症、早衰综合征等。因此尽可能准确的对端粒进行检测可以提供与疾病相关的重要信息。
由于端粒序列较长,且其中含有大量6碱基简单重复序列,人端粒序列的重复单元为TTAGGG(forward strand)/CCCTAA(reverse strand),总长度约2kb-20kb,使用二代测序(NGS,代表平台为Illumina、MGI)无法测通,只能使用针对长片段测序方法(比如纳米孔测序技术)对长度在5kb以上的片段进行序列测定。
在上述测序中的常规建库方法依然存在无法区分完整端粒末端和基因组断裂端点的问题,由于基因组在提取过程中会造成大量断裂端点,此外还会存在一定量的不完整端粒末端,数量远远多于完整的端粒末端,常规的端粒建库方式无法有效地对其进行区分,将会导致这一类的建库方法无法对完整或长片段端粒序列进行有效富集,长片段端粒序列占比极低,短片段偏好严重,导致文库有效数据占比低下,会造成测序数据量的极大浪费,同时也极易导致纳米孔测序失败,很难测到准确的端粒序列和真实的长度分布状态,严重影响后续分析和解读。
此外,由于三代测序等长片段测序平台的芯片孔数限制,常规建库方法直接建库很难测到端粒序列,很难通过加大数据量来弥补,因此测序时多在带有接头的文库基础上,使用设计的端粒特异性引物和文库接头上的另一条引物进行PCR扩增,进行端粒序列的富集,但因为提取时产生的断点数量较多,还有大量的不完整端粒末端,造成富集效率较低,测到的端粒序列很少,无法有效进行端粒序列测定。另外,存在多个染色体末端序列未确定,也存在染色体的末端序列不能找到理想的引物序列,因此该方法也有局限,只能测定部分染色体的端粒序列,且其比例异常。
目前仍需要一种用于完整端粒扩增子测序的组合物、预文库及其构建方法。