发明名称 一种基于约束性布尔网络的最大评分预测方法
摘要 本发明涉及一种基于约束性布尔网络的最大评分预测方法,包括有以下步骤:第一步、计算相对互信息确定候选预测基因集,第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,本发明具有本发明适用于依据小样本数据预测多变量之间的关系,本发明对噪声的鲁棒性更强,更适用于真实环境下的生物数据的预测,发明预测的网络结构更加准确、详细,体现在预测调控关系的正确数目及调控关系的方向性和正负调控关系。
申请公布号 CN103646159B 申请公布日期 2016.07.06
申请号 CN201310457138.X 申请日期 2013.09.30
申请人 温州大学 发明人 刘文斌;欧阳宏嘉;方洁;沈良忠
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 温州金瓯专利事务所(普通合伙) 33237 代理人 黄肇平
主权项 一种基于约束性布尔网络的最大评分预测方法,其特征在于:包括有以下步骤:第一步、计算相对互信息确定候选预测基因集,其包括以下步骤:一、根据以下公式计算两两变量之间的相对互信息<img file="FDA0000962239450000011.GIF" wi="541" he="158" />确定一个相对互信息矩阵,式中<img file="FDA0000962239450000012.GIF" wi="50" he="78" />表示预测基因x<sub>j</sub>从时刻1到t的表达值;<img file="FDA0000962239450000013.GIF" wi="74" he="71" />表示目标基因x<sub>i</sub>从时刻2到t+1的表达值;<img file="FDA0000962239450000014.GIF" wi="246" he="78" />是预测基因x<sub>j</sub>与目标基因x<sub>i</sub>延迟一个单位时间的条件互信息;H(x)表示变量x的熵;θ<sub>ij</sub>表示预测基因x<sub>j</sub>与目标基因x<sub>i</sub>的相对互信息;二、计算相对互信息矩阵中每一行的平均值,将之作为阈值δ<sub>i</sub>,根据以下公式计算:<maths num="0001"><math><![CDATA[<mrow><msub><mi>&delta;</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow>]]></math><img file="FDA0000962239450000015.GIF" wi="326" he="143" /></maths>式中n表示相对互信息矩阵中每一行的个数,三、定义一个M矩阵,确定目标基因各自的候选预测基因集,根据以下方程计算:<maths num="0002"><math><![CDATA[<mrow><msub><mi>M</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>&lt;</mo><msub><mi>&delta;</mi><mi>i</mi></msub></mrow></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mrow><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>&GreaterEqual;</mo><msub><mi>&delta;</mi><mi>i</mi></msub></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000962239450000016.GIF" wi="406" he="159" /></maths>M<sub>ij</sub>中i行第j列为1,则选择第j个基因作为i基因的候选预测基因集中的一个;第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,其包括以下步骤:①根据预测基因时间点t的值x<sub>j</sub>(t)与目标基因时间点t和时间点t+1的值x<sub>i</sub>(t)、x<sub>i</sub>(t+1),确定调控关系表R(m‑1)×p(x<sub>i</sub>),其中,p(x<sub>i</sub>)表示目标基因x<sub>i</sub>的预测基因的个数,m表示样本点/时间点个数;调控关系表R(m‑1)×p(x<sub>i</sub>)每一行的元素将由x<sub>j</sub>(t)、x<sub>i</sub>(t)和x<sub>i</sub>(t+1)按照调控关系a<sub>ij</sub>的约束关系进行求解,具体过程如下:当x<sub>i</sub>(t)=0,x<sub>i</sub>(t+1)=0,对a<sub>ij</sub>的约束为<img file="FDA0000962239450000021.GIF" wi="311" he="110" />当x<sub>i</sub>(t)=0,x<sub>i</sub>(t+1)=1,对a<sub>ij</sub>的约束为<img file="FDA0000962239450000022.GIF" wi="310" he="111" />当x<sub>i</sub>(t)=1,x<sub>i</sub>(t+1)=0,对a<sub>ij</sub>的约束为<img file="FDA0000962239450000023.GIF" wi="310" he="110" />当x<sub>i</sub>(t)=1,x<sub>i</sub>(t+1)=1,对a<sub>ij</sub>的约束为<img file="FDA0000962239450000024.GIF" wi="309" he="111" />并根据调控关系a<sub>ij</sub>进行编码,其中:a<sub>ij</sub>=‑1表示预测基因对目标基因具有负调控;a<sub>ij</sub>=1表示预测基因对目标基因具有正调控;a<sub>ij</sub>=2表示未完全确定,表示预测基因对目标基因的调控关系不确定但存在一定的约束;a<sub>ij</sub>=0表示预测基因对目标基因调控关系不确定且不存在任何约束;②定义预测基因x<sub>j</sub>对目标基因x<sub>i</sub>的调控关系a<sub>ij</sub>的确定性为:<maths num="0003"><math><![CDATA[<mrow><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mo>|</mo><msubsup><mi>N</mi><mrow><mi>i</mi><mi>j</mi></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mo>-</mo><msubsup><mi>N</mi><mrow><mi>i</mi><mi>j</mi></mrow><mn>1</mn></msubsup><mo>|</mo><mo>,</mo></mrow>]]></math><img file="FDA0000962239450000025.GIF" wi="334" he="91" /></maths>式中<img file="FDA0000962239450000026.GIF" wi="230" he="79" />分别表示a<sub>ij</sub>=‑1,a<sub>ij</sub>=1的个数,并通过<img file="FDA0000962239450000027.GIF" wi="398" he="127" />和<img file="FDA0000962239450000028.GIF" wi="358" he="126" />计算;③按照步骤②得到的确定性d<sub>ij</sub>从大到小依次确定预测基因x<sub>j</sub>对目标基因x<sub>i</sub>最可能的调控关系a<sub>ij</sub>的值,如果<img file="FDA0000962239450000029.GIF" wi="214" he="78" />那么a<sub>ij</sub>=‑1,否则a<sub>ij</sub>=1,将已确定的a<sub>ij</sub>代入所述的调控关系表<img file="FDA0000962239450000031.GIF" wi="229" he="71" />再确定下一个a<sub>ik</sub>,k≠j;④统计错误个数:采用<img file="FDA0000962239450000032.GIF" wi="409" he="87" />计算关系冲突错误;根据步骤①中获得的编码进行统计计算1的个数无输入错误:<img file="FDA0000962239450000033.GIF" wi="118" he="86" />⑤定义评分准则:<maths num="0004"><math><![CDATA[<mrow><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><munder><mo>&Sigma;</mo><mi>j</mi></munder><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msubsup><mi>&epsiv;</mi><mrow><mi>i</mi><mi>j</mi></mrow><mrow><mo>-</mo><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msubsup><mo>-</mo><msubsup><mi>&epsiv;</mi><mi>i</mi><mrow><mi>n</mi><mi>u</mi><mi>l</mi><mi>l</mi></mrow></msubsup><mo>)</mo></mrow><mo>/</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000962239450000034.GIF" wi="630" he="119" /></maths>式中s<sub>i</sub>表示预测结果,从预测基因集合中选择使得s<sub>i</sub>最大的预测基因组合作为目标基因x<sub>i</sub>的父基因,且基因入度K≤3。
地址 325000 浙江省温州市茶山温州大学