发明名称 DNA测序污染序列批量处理工具
摘要 DNA测序污染序列批量处理工具,涉及到一种分子生物学DNA序列的处理方法。它解决了现有的分子生物学DNA序列的处理方法不能对DNA序列的污染序列进行批量处理的问题。DNA测序污染序列批量处理工具由目录遍历装置、序列文件合并装置、载体污染序列搜索装置、接头污染序列搜索装置、位置确定装置和污染序列去除装置组成。它利用NCBI发布的Blast序列相似性搜索技术将待处理序列在构建好的载体序列库中进行相似性搜索,查找载体序列的位置,自动去除载体序列后,再利用两两序列比对技术查找接头序列的位置,并自动去除接头序列,最终获得无污染序列(包括载体和接头序列)的物种自有的DNA序列。它能够应用到分子生物学领域中对DNA测序获得的序列的处理中。
申请公布号 CN101149743A 申请公布日期 2008.03.26
申请号 CN200710144577.X 申请日期 2007.11.09
申请人 中国水产科学研究院黑龙江水产研究所 发明人 匡友谊;孙效文;尹家胜
分类号 G06F17/30(2006.01);G06F19/00(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 哈尔滨市松花江专利商标事务所 代理人 王吉东
主权项 1.DNA测序污染序列批量处理工具,其特征在于它由以下装置组成:用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历,以获得所述目录中所有指定类型的原始序列文件的目录遍历装置,用于对目录遍历模块获得的所有原始序列文件进行合并,进而生成一个标准fasta序列格式的原始序列文件集的序列文件合并装置,用于采用递归算法调用Blast序列相似性搜索程序对原始序列文件集中的每条序列逐一与载体序列库中的载体序列进行相似性搜索,进而获得与对比的载体序列相似性最高、长度最长的一段序列为目标序列的载体污染序列搜索装置,用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对,进而获得输入序列中与接头序列中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置,用于根据载体污染序列搜索装置或者接头污染序列搜索装置获得的目标序列在输入序列中的位置,确定待去除污染序列的起始位置和终止位置的位置确定装置,用于将位置确定装置获得的起始位置和终止位置之间的序列去除的污染序列去除装置。
地址 150070黑龙江省哈尔滨市道里区松发街43号