发明名称 基因组织特异性序列模式元搜索方法及搜索结果评价方法
摘要 本发明公开了一种基因组织特异性序列模式元搜索方法及搜索结果评价方法,涉及生物信息科学领域,搜索方法:从生物信息学数据库中提取组织特异性基因和HK基因启动子序列为输入的初始数据;对输入的初始数据分别执行局部搜索算法和穷尽式搜索算法;然后将各模式搜索算法运行的结果组织存储到过滤矩阵中,利用过滤矩阵中的数据来估计模式的概率,再对各模式进行归并;评价方法:利用贝叶斯因子分析评价统计得到的基因组织特异性模式搜索结果的重要性。与现有技术相比,本发明的元搜索框架融合了多种算法,符合生物信息学提倡的“平均结果优于单一选择”的原则,提高了结果的鲁棒性和可信性,提高搜索结果的可信性,避免模式的过份估计或低估计。
申请公布号 CN102231178A 申请公布日期 2011.11.02
申请号 CN201110128656.8 申请日期 2011.05.18
申请人 天津大学 发明人 许华琳;宫秀军
分类号 G06F19/24(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 李素兰
主权项 1.一种基因组织特异性序列模式元搜索方法,其特征在于,该方法包括以下步骤:步骤一, 从生物信息学数据库中提取组织特异性基因和HK基因启动子序列为输入的初始数据;其中,生物信息学数据库包括真核生物启动子数据库EPD,基因调控转录因子数据库Transfac,储存核小体位置区域的数据库NPRD,储存DNA甲基化信息的数据库MethDB;步骤二,执行组织特异性基因元搜索流程,对作为本步骤输入的所述初始数据分别执行局部搜索算法和穷尽式搜索算法; 然后将各模式搜索算法运行的结果组织存储到过滤矩阵FilterMatrix中,利用过滤矩阵FilterMatrix中的数据来估计模式的概率,再对各模式进行归并,在对各模式进行归并的过程中,采用贝叶斯似然比的方法计算motif之间的相似性,假设有两个motif<img file="823971DEST_PATH_IMAGE001.GIF" wi="21" he="42" />和<img file="555167DEST_PATH_IMAGE002.GIF" wi="21" he="42" />,公式如下:<img file="610848DEST_PATH_IMAGE003.GIF" wi="504" he="46" />(1)其中,<img file="427494DEST_PATH_IMAGE004.GIF" wi="209" he="25" />表示<img file="164506DEST_PATH_IMAGE005.GIF" wi="21" he="25" />与<img file="750208DEST_PATH_IMAGE006.GIF" wi="22" he="25" />来自相同分布源的概率,类似的,<img file="242369DEST_PATH_IMAGE007.GIF" wi="210" he="25" />则表示<img file="546311DEST_PATH_IMAGE005.GIF" wi="21" he="25" />与<img file="821435DEST_PATH_IMAGE006.GIF" wi="22" he="25" />来自不同分布源的概率,<img file="527223DEST_PATH_IMAGE008.GIF" wi="222" he="25" />则表示<img file="924706DEST_PATH_IMAGE005.GIF" wi="21" he="25" />与<img file="653628DEST_PATH_IMAGE006.GIF" wi="22" he="25" />都来自背景分布的概率,该基于似然比的评分标准计算的是在给定源分布的情况下基因在不同位置上的概率;根据上述的相似性计算结果,得到模式搜索结果;     所述局部搜索算法包括MEME算法和AlignCE算法;所述穷尽式搜索算法包括CONSENSUS算法、PROJECTION算法和PDEM算法。
地址 300072 天津市南开区卫津路92号