发明名称 一种大批量开发SSR分子标记的方法
摘要 本发明涉及一种大批量开发SSR分子标记的方法,其包括1获取基因组测序序列或GenBank上的EST序列;2获得基因组测序序列或GenBank上的EST序列的SSR位点信息;3按照SSR基序类型对SSR位点进行归类;4对数据库3.CSV的SSR位点信息进行反向互补处理;5使用SSR位点序列截取软件获取数据库4.CSV和数据库5.CSV中的SSR分子标记及上下游序列并按基序类型建立序列数据库;6筛选同类型SSR的CSV文件中重复或相似的SSR位点。本方法可以定位基因组中的SSR标记位点,批量截取SSR序列片段,并对不同的SSR序列进行重复性分析,大大提高SSR分子标记的开发效率。
申请公布号 CN104830832A 申请公布日期 2015.08.12
申请号 CN201510232342.0 申请日期 2015.05.09
申请人 中国农业科学院麻类研究所 发明人 邓欣;王玉富;陈信波;龙松华;邱财生
分类号 C12N15/10(2006.01)I;C12Q1/68(2006.01)I 主分类号 C12N15/10(2006.01)I
代理机构 长沙市和协专利代理事务所(普通合伙) 43115 代理人 王培苓
主权项 一种大批量开发SSR分子标记的方法,其特征在于,包括以下步骤:(1)、获取基因组测序序列或GenBank上的EST序列,并采用FAS格式保存基因组测序序列或GenBank上的EST序列;(2)、采用Tandem Repeats Finder获得步骤(1)所获得的基因组测序序列或GenBank上的EST序列的SSR位点信息,并把分析汇总结果转换为CSV格式文件,建立数据库1.CSV,Tandem Repeats Finder的设置参数为(20,2000,2,7,7);(3)、按照SSR基序类型对SSR位点进行归类,(31)、按照碱基互补及移位组合的原则,把含有1~6碱基的所有的SSR类型分为508种,(32)、按照单核苷酸重复次数≥16,二核苷酸重复次数≥8,三核苷酸重复次数≥5,四核苷酸重复次数≥4,五核苷酸重复次数≥3,六核苷酸重复次数≥3的标准筛选数据库1.CSV中的SSR的位点信息,保留所有符合条件的SSR标记并建立数据库2.CSV,(33)、调整数据库2.CSV中的SSR位点信息的数据结构,按下列格式以CSV文档格式保存,第一列为编号,第二列为“序列片段名称‑编号”,第三列为SSR重复基序类型,第四列为SSR重复基序长度,第五列为SSR在序列片段中的起始位置,第六列为SSR在序列片段中的结束位置,第七列为SSR所在序列片段的总长度,第八列为SSR位点上游截取片段点的位置,第九列为为SSR位点下游截取片段点的位置,建立数据库3.CSV,(4)、对数据库3.CSV的SSR位点信息进行反向互补处理;根据步骤(31)的SSR类型将步骤(33)中的数据库3.CSV拆分成不需要进行反向互补的SSR基序数据库4.CSV和需要进行反向互补的SSR基序数据库5.CSV;(5)、使用SSR位点序列截取软件截取数据库4.CSV和数据库5.CSV中的SSR分子标记及上下游序列并按基序类型建立序列数据库,包括以下步骤:(501)、使用Emeditor 9.0打开步骤(1)中的基因组测序序列或GenBank上的EST序列,(502)、使用Emeditor 9.0打开数据库4.CSV,(503)、使用Emeditor 9.0导入SSR位点序列截取软件,(504)、打开并执行SSR位点序列截取软件对数据库4.CSV中的SSR分子标记进行截取,(505)、运算完成后,SSR位点序列截取软件会按照步骤(31)中的SSR类型分别生成以SSR类型命名的CSV格式文件,(506)、重命名新步骤(505)生成的文件夹为“SSR序列文件”,(507)、使用Emeditor 9.0打开步骤(1)中的基因组测序序列或GenBank上的EST序列,(508)、使用Emeditor 9.0打开数据库5.CSV,(509)、使用Emeditor 9.0导入SSR位点序列截取软件,(510)、打开并执行SSR位点序列截取软件对数据库5.CSV中的SSR分子标记进行截取,(511)、运算完成后,SSR位点序列截取软件会按照步骤(31)中的SSR类型分别生成以SSR类型命名的CSV格式文件,(512)、重命名步骤(511)生成的文件夹为“SSR带反向互补序列文件”,合并该文件夹内所有CSV文件并建立6.CSV,(513)、通过excel宏和函数获取6.CSV中SSR上下游片段的反向互补序列,建立7.CSV,(514)、按照SSR基序类型拆分7.CSV,按步骤(31)中不同的SSR类型分别建立excel文件;(515)、合并步骤(505)和步骤(511)生成的同类型SSR的CSV文件,只保留序列片段名称和包括上下游基因组序列的SSR位点信息,并保存为FASTA格式,(6)、采用Bioedit Sequence Alignment Editor筛选步骤(505)和步骤(511)生成的同类型SSR的CSV文件中重复或相似的SSR位点;利用Bioedit Sequence Alignment Editor对步骤(515)生成的序列数据库进行自身比对分析,去除高度相似微卫星序列,筛选出有效SSR序列数据,Bioedit Sequence Alignment Editor中Expectation Value(E)的筛选参数设置为1.0E‑100,软件列出的在数据库中能比对出其他相似序列的序列即为为高度相似微卫星序列。
地址 410205 湖南省长沙市岳麓区咸嘉湖西路348号中国农科院麻类研究所