发明名称 一种智能化中医药信息处理系统
摘要 智能化中医药信息处理系统,所述系统为一个综合性的中药方剂数据挖掘平台,包括三模块;第一模块是数据预处理界面模块,将中医药领域常用的excel数据源转变为weka-excel的中间件,供后续使用;其二模块是常用数据挖掘功能界面,模块基于weka源码的二次开发,包含了频繁项集,关联规则,聚类,层次聚类四大中医药领域常用的数据分析手段,并允许进行相应挖掘参数的设置;第三模块是症药关系挖掘界面,该模块基于Apriori频繁项挖掘的改进算法。
申请公布号 CN104794340A 申请公布日期 2015.07.22
申请号 CN201510186317.3 申请日期 2015.04.17
申请人 南京大学 发明人 吴骏;谢隽;彭岳;汤兆亮;李宁;王崇骏
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 陈建和
主权项 智能化中医药信息处理系统,其特征是所述系统为一个综合性的中药方剂数据挖掘平台,包括三模块;第一模块是数据预处理界面模块,将中医药领域常用的excel数据源转变为weka‑excel的中间件,供后续使用;其二模块是常用数据挖掘功能界面,模块基于weka源码的二次开发,包含了频繁项集,关联规则,聚类,层次聚类四大中医药领域常用的数据分析手段,并允许进行相应挖掘参数的设置;第三模块是症药关系挖掘界面,该模块基于Apriori频繁项挖掘的改进算法;第一模块给出的数据预处理界面,其包含一个导入按钮,允许用户选择windows系统内的任一excel文件作为输入源;通过开源包jxl.jar读取该文件信息,并判断是否符合第一列为方名,第二列为组成药物的固定格式;再将数据转换为DMsource.txt这个weka‑excel中间件,引入该中间件的目的在于它比arff文件更具有可读性,可供审阅;所述的第一模块给出的数据挖掘界面,其包含频繁项集,关联规则,聚类,层次聚类这几大方法;频繁项集能选择的参数包括挖掘模式:0)Apriori对药物集,1)Aprioir对症状集,2)从药物集得出相应的症状集,3)从症状集得出相应的药物集,4)FP‑growth对药物集;参数包括:最小支持度设置;最长频繁项长度设置;关联规则采用FP‑growth生成,参数包括:最小置信度和最小支持度的设置;聚类采用的是基于FP itemset的聚类算法,参数包括:最小支持度设置;最长频繁项长度设置;层次聚类采用的是逐次将上一层的频繁项集进行聚类的算法;所述的第三模块给出的症药关系挖掘界面,该界面所包含的算法为Apriori算法的改进版,较之一般的基于简单比较得出的支持度不足以反映出中医药领域数据的特征,采取了项集重要度这一新的度量标准,使得挖掘结果更能体现客观规律。所述的第三模块给出的频繁项集的挖掘模式2)从药物集得出相应的症状集能够看成是一种获得症药关系的方法:首先依照设定的支持度和最长频繁项长度,按照挖掘模式0)Apriori获得仅含药物的频繁项集;然后对于其中的任意频繁项I,将总数据集C中,凡是药物组成包含I的数据的症状信息添加到新的数据集Cz中;依照设定的参数,按照挖掘模式1)Apriori获得在药对I的前提下症状Z的频繁项集;此条件项集就是产生的症药关系对;所述的频繁项集的挖掘模式3)从症状集得出相应的药物集,这也能够看成是一种获得症药关系的方法;首先依照设定的支持度和最长频繁项长度,按照挖掘模式1)Apriori获得仅含症状的频繁项集;然后对于其中的任意频繁项I′,将总数据集C中,凡是症状包含I的数据的药物信息添加到新的数据集Cy中;依照设定的参数,按照挖掘模式0)Apriori获得在症状I′的前提下药物Y的频繁项集;此条件项集就是产生的症药关系对。
地址 210093 江苏省南京市鼓楼区汉口路22号