发明名称 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
摘要 本发明实施例公开了一种基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法,该方法首先获取由多个酵母菌基因表达数据转换成生物网络后形成的初始图集,并对初始图集做粗过滤,删除对于寻找频繁稠密点集无贡献的不相关的边得到摘要图,接着在摘要图的基础上寻找可能的候选网络子集,然后回到初始图集中分别提取出候选网络子集,并对提取的图集再一次做粗过滤以便得到摘要图集,最后分别对摘要图进行稠密子图查找,得到频繁稠密点集作为酵母菌共表达的基因团。实施本发明,能够降低计算复杂度,提高频繁模式挖掘的准确性、效率以及解决模式重叠问题。
申请公布号 CN106295248A 申请公布日期 2017.01.04
申请号 CN201610644326.7 申请日期 2016.08.08
申请人 温州大学 发明人 沈良忠
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 温州名创知识产权代理有限公司 33258 代理人 陈加利
主权项 一种基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法,其特征在于,所述预测方法包括:第一步、寻找频繁稠密点集无贡献的不相关的边:步骤S11、获取多个酵母菌基因表达数据转换成生物网络后形成的初始图集D={G<sub>i</sub>=(V,E<sub>i</sub>)}(1≤i≤m),并确定最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值;其中,所述初始图集由多个均具有相同点集的子图G<sub>i</sub>形成,且不同子图G<sub>i</sub>之间至少存在一条相异的边;步骤S12:确定每一个子图G<sub>i</sub>的每条边,在所述初始图集中出现的次数均大于最小频繁支持度阈值k和图集大小m的乘积的最小正整数值;步骤S13、删除所述初始图集中每一个子图G<sub>i</sub>中均满足稠密度系数ED<sub>e</sub><δ/f的边;步骤S14、构建出与所述初始图集中每一个子图G<sub>i</sub>具有相同点集的摘要图,且所述初始图集对应的摘要图中每条边均需满足稠密度系数<img file="FDA0001072528950000011.GIF" wi="526" he="117" />步骤S15、对所述初始图集对应的摘要图中每条边均做边聚类系数,删除所述初始图集对应的摘要图中边聚类系数EC<sub>e</sub><q的边并更新;步骤S16、将所述更新后的初始图集对应的摘要图与所述每一个子图G<sub>i</sub>的边进行一一对比,删除每一个子图G<sub>i</sub>中不存在于所述更新后的初始图集对应的摘要图中的边并更新;步骤S17、重复步骤S13至步骤S16,直到所述更新后的初始图集对应的摘要图中的边不在发生变化为止;第二步、确定候选网络子集:步骤S21、给所述边不在发生变化的摘要图中每条边的边向量均赋予一个权值,并确定所述赋值的每条边对应边支持向量的汉明值,且进一步将汉明值满足筛选条件的边向量并到集合A中,将汉明值不满足筛选条件的边向量并到集合B中;步骤S22、分别对所述集合A和所述集合B中的边向量进行归并,把重复的边向量删除,仅保留一个并更新边向量对应的权值;步骤S23、设置种子向量,并根据所述设置的种子向量,调整集合A和集合B中的边向量;其中,所述种子向量为权重最大的边;步骤S24、按照最大边向量相似度的准则,把所述调整后的集合B中的边向量均映射到所述调整后的集合A中,并待映射结束后,将所述完成映射后的集合A中的边向量进行聚类运算,形成聚类中心集合;步骤S25:删除聚类中心集合中,1的个数出现的频率小于k与图集大小乘积的下取整数<img file="FDA0001072528950000022.GIF" wi="122" he="63" />的聚类中心;第三步、获取摘要图集:步骤S31、根据所述形成的聚类中心集合,在所述初始图集D={G<sub>i</sub>=(V,E<sub>i</sub>)}(1≤i≤m)中,提取分别与所述聚类中心集合中每一向量相一致的子图,形成多个新图集;步骤S32、根据所述确定的最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值,删除所述每一新图集中均满足稠密度系数ED<sub>e</sub><δ/f的边;步骤S33、分别构建出与所述每一新图集中具有相同点集的摘要图,且所述每一新图集的摘要图中每条边均需满足稠密度系数<img file="FDA0001072528950000021.GIF" wi="530" he="119" />步骤S34、对所述每一新图集的摘要图中每条边均做边聚类系数,删除所述每一新图集的摘要图中边聚类系数EC<sub>e</sub><q的边并更新;步骤S35、将所述更新后的每一新图集的摘要图分别与对应的新图集的边进行一一对比,删除每一新图集中不存在于其相对应的摘要图中的边并更新;步骤S36、重复步骤S32至步骤S35,直到所述更新后的每一新图集的摘要图中的边不在发生变化为止,得到摘要图集;第四步、查找稠密子图,并确定频繁稠密点集:步骤S41、在所述得到的摘要图集中,根据所述更新后的初始图集对应的摘要图,查找与所述更新后的初始图集对应的摘要图中边集相一致的稠密子图,并根据所述查找到的稠密子图,确定频繁稠密点集,且进一步将所述确定的频繁稠密点集进行归并后,作为酵母菌基因共表达的基因团输出。
地址 325000 浙江省温州市瓯海区东方南路38号温州市国家大学科技园孵化器