发明名称 识别被测序基因组中的重排
摘要 本发明提供了参照人类基因组参考序列识别被测序基因组的结点(例如,由大规模重排引起)的方法、装置和系统。例如,可以将假阳性与实际结点区分开。这样的假阳性可能由许多原因引起,包括错误映射、样本的DNA分子之间的嵌合反应、和参考基因组带来的问题。作为过滤处理的一部分,可以提供结点的碱基对分辨率(或近碱基对分辨率)。在各种实现中,可以使用失调末端配对和/或将片段的长度分布的统计分析用于样本基因组的局部区域来识别结点。还可以识别在识别临床上有意义的结点,以便可以把进一步的分析集中在对病人的健康可能有更大影响的基因组区域上。
申请公布号 CN103262086B 申请公布日期 2016.11.02
申请号 CN201180059581.0 申请日期 2011.10.11
申请人 考利达基因组股份有限公司 发明人 I.纳扎伦科;A.L.哈尔珀恩;P.卡恩瓦力
分类号 G06F19/22(2006.01)I 主分类号 G06F19/22(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 史新宏
主权项 一种在样本基因组与参考基因组之间确定是否存在结点的方法,结点是样本基因组上结点的第一侧的序列和结点的第二侧的序列与它们在参考基因组上的关系相比,具有不同的距离、次序或取向的地点,所述样本基因组属于提供生物样本的有机体,所述方法包含:从生物样本接收双末端测序多个片段的结果,该结果包括片段的末端配对和该末端配对到参考基因组的映射,其中一个末端配对包括片段的第一端的第一臂读数和片段的相对端的相应臂读数;根据末端配对到参考基因组的映射识别样本基因组中的结区,该结区包括:包含结区的第一边缘的第一边缘部分;包含结区的第二边缘的第二边缘部分,第一边缘与第二边缘相对;以及第一边缘与第二边缘之间的潜在结点;识别第一臂读数的第一集合,其中每个第一臂读数至少部分映射到第一边缘部分或具有根据各自相应臂读数的映射地点至少部分映射到第一边缘部分的不可忽略概率;以及将第一集合的第一臂读数的序列相互比较,以确定在结区中是否存在结点,其中当第一集合的第一臂读数与在参考基因组的第一区域中开始和在参考基因组的第二区域中结束的序列不一致时,确定不存在结点。
地址 美国加利福尼亚州