发明名称 中医证候的分子解释工具构造方法
摘要 本发明公开了一种中医证候分子解释工具构造方法,包括如下步骤:计算症状与中医证候之间的信息增益;根据多个不同的信息增益阈值来筛选出多个不同的症状集,并构建基于该多个不同症状集的支持向量机分类模型;将多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状;确定核心症状对应的表型本体条目以及表型本体条目关联的基因,筛选出频繁基因;根据频繁基因和分子层面的数据来构造用于中医证候解释的分子解释工具。本发明通过筛选出中医证候的核心症状和获得频繁基因,能够构造阐释核心症状的分子机制的分子解释工具,该工具有助于更好的认识中医证候的机理。
申请公布号 CN103279666B 申请公布日期 2016.04.13
申请号 CN201310208018.6 申请日期 2013.05.30
申请人 中国科学院自动化研究所 发明人 高一波;代文;卢朋;刘西;陈琳;宋江龙;陈迪
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 宋焰琴
主权项 一种中医证候分子解释工具构造方法,所述分子解释工具用于从分子层面阐释中医证候的机理,其特征在于,所述方法包括如下步骤:步骤S1:根据中医病例样本数据,计算症状与中医证候之间的信息增益;步骤S2:根据多个不同的信息增益阈值来筛选出多个不同的症状集,并构建基于该多个不同症状集的多组支持向量机分类模型;步骤S3:将所述多组支持向量机分类模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状;步骤S4:确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因,依据关联基因的出现频率对基因进行排序,并设置一个频率阈值来筛选出频繁基因;步骤S5:根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具;在步骤S1中,信息增益IG(C|X)根据下面的表达式来计算:<math><![CDATA[<mrow><mi>I</mi><mi>G</mi><mrow><mo>(</mo><mi>C</mi><mo>|</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mo>&Sigma;</mo><mi>i</mi></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>P</mi><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>-</mo><mrow><mo>(</mo><mo>-</mo><munder><mo>&Sigma;</mo><mi>j</mi></munder><mi>P</mi><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><munder><mo>&Sigma;</mo><mi>i</mi></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>P</mi><mo>(</mo><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><msub><mi>x</mi><mi>j</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow><mo>)</mo><mo>,</mo></mrow>]]></math><img file="FDA0000920318220000011.GIF" wi="1502" he="127" /></maths>其中,C表示中医证候,X表示症状,第一项<img file="FDA0000920318220000012.GIF" wi="598" he="109" />表示证候的信息熵,P(c<sub>i</sub>)为证候取值的先验概率;第二项<math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>C</mi><mo>|</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mo>&Sigma;</mo><mi>j</mi></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><munder><mo>&Sigma;</mo><mi>j</mi></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>P</mi><mo>(</mo><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><msub><mi>x</mi><mi>j</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000920318220000013.GIF" wi="960" he="115" /></maths>表示观察症状取值之后证候的信息熵,P(c<sub>i</sub>|x<sub>j</sub>)为观察症状取值后证候的后验概率;所述步骤S2进一步包括:步骤S21:将所述病例样本分为训练样本集和测试样本集两部分;步骤S22:设置多个不同的信息增益阈值,利用该多个不同信息增益阈值来选取多个不同的症状集,并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型;步骤S23:将所述训练得到的每组支持向量机分类模型用于测试样本集的预测,计算每组支持向量机分类模型在测试样本集上的预测准确率。
地址 100190 北京市海淀区中关村东路95号