发明名称 检测逆转座子插入多态性的方法和装置
摘要 本发明公开一种检测逆转座子插入多态性的方法,包括:获取目标个体基因组测序结果;将测序结果与参考序列比对,获得异常匹配集,异常匹配集包括第一类读段对,第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另一个至少能够与TE参考序列匹配;按照匹配位置将异常匹配集中的第一类读段中的能够匹配到TE参考序列的读段聚类成簇;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目不大于1的簇;基于获得的处理后的簇,检测逆转座子插入多态性。本发明还提供一种检测逆转座子插入多态性的装置。本发明的方法和/或装置,能够快速、简便和准确的鉴定TE插入或者发现新的TE插入。
申请公布号 CN104794371A 申请公布日期 2015.07.22
申请号 CN201510213863.1 申请日期 2015.04.29
申请人 深圳华大基因研究院 发明人 曾永理;张小龙;王烨明;李贵波;蒋润泽;李波;刘明明;王延晖
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 李志东;陈伊雯
主权项 一种检测逆转座子插入多态性的方法,其特征在于,包括以下步骤:获取目标个体基因组测序结果,所述测序结果包括多对读段对,每对读段对由两个读段组成,分别来自一条染色体片段的两端,每对读段对分别来自所述染色体片段的正链和负链,或者,每对读段对同时来自所述染色体片段的正链或所述染色体片段的负链;将所述测序结果与参考序列进行比对,获得异常匹配集,所述异常匹配集包括第一类读段对,所述第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另一个至少能够与TE参考序列匹配,所述TE参考序列包括以下四种类型中的至少一种:Alu参考序列、L1参考序列、SVA参考序列和LTR参考序列;按照匹配位置将所述异常匹配集中的第一类读段中的能够匹配到所述TE参考序列的读段聚类成簇,所述簇的大小不大于一个TE插入的大小;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目不大于1的簇,以及任选的,将相邻的、最大距离不大于D<sub>b</sub>且方向相反的簇合并为一个簇,其中,D<sub>b</sub>为两个TE插入的大小;基于获得的处理后的簇,检测所述逆转座子插入多态性。
地址 518083 广东省深圳市盐田区北山工业区综合楼