发明名称 一种基于本体和主题模型的临床路径挖掘方法
摘要 本发明提出了一种基于本体和主题模型的临床路径挖掘方法。给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径。本发明能够从医院实际的收费数据出发,通过一系列的数据处理,得到符合医院实际情况的疾病诊疗的临床路径,从而辅助制定符合医院实际的临床路径,该方法相比人工制定效率更高并且更客观全面。
申请公布号 CN106228023A 申请公布日期 2016.12.14
申请号 CN201610621176.8 申请日期 2016.08.01
申请人 清华大学 发明人 金涛;王建民;徐啸
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 廖元秋
主权项 一种基于本体和主题模型的临床路径挖掘方法,其特征在于,根据给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径;各阶段处理具体包括以下步骤:(1)数据预处理:对获取的医院原始收费数据进行预处理并调整数据的格式;输入的原始医院收费数据,至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段;具体包括:(1‑1)对收费项目的数据进行处理,删除与疾病诊疗不相关的数据,删除与收费项目名称不相关的用语;(1‑2)对(1‑1)删除后保留的数据进行规范化处理,具体过程为:(1‑2‑1)同一病人同一天同样收费项目使用总量进行加和;(1‑2‑2)同一病人同一天不同收费项目的使用总量进行归一化处理,将使用数量都归一化到区间[0,100];(1‑3)对(1‑2)规范化后的数据调整输出格式,具体过程为:(1‑3‑1)将所有收费项目都分配一个唯一编号;(1‑3‑2)将经过步骤(1‑2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人在某一天具体有哪些收费项目,同一收费项目编号重复次数为该收费项目在当日归一化后的数量;(2)语义近似处理:根据阶段(1)得到的规定格式的数据中所有收费项目名称找出目的相似的医疗服务项目,基于收费项目的相似度输出指定格式内容,具体包括以下步骤:(2‑1)使用有道翻译API进行收费项目名称的中译英,删除翻译结果中的分类标签;(2‑2)基于Snomed CT计算不同收费项目之间的语义相似度,基于Intrinsic IC‑based的方法度量不同项目之间的语义相似度;(2‑3)根据收费项目的相似度进行处理,将所有两两相似度值不小于0.8的收费项目对输出到一个must‑links文件中,输出格式为“MERGE_收费项目编号收费项目编号”;其中收费项目编号为(1‑3‑1)得出的编号;(3)主题聚类:基于阶段(1)(2)的输出文件建立主题模型,将各个病人各天的所有收费项目视为一个文档(病人诊疗天文档),将收费项目视为一个单词,具体如下:将阶段(1)中整理后的收费记录文件形如“病人编码@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”、阶段(2)中整理得到的must‑links文件,形如“MERGE_收费项目编号收费项目编号”作为输入,调用Tree‑based(基于树)的LDA算法;输出两个概率矩阵作为主题模型,一个是各病人诊疗天文档到各主题的概率矩阵,反映了病人每天的诊疗是服务于哪些主题的;另一个是各主题到各收费项目的概率矩阵,反映了确定了诊疗主题后,需要采取哪些诊疗项目;(4)主题序列处理:根据阶段(3)建立的主题模型对病人诊疗天文档进行主题标注,并针对每个病人将每天的诊疗主题串接起来形成诊疗主题序列,进而进行相应处理,具体包括以下步骤:(4‑1)根据阶段(3)中得到的病人诊疗天文档到各主题的概率矩阵,当某主题的概率大于最大概率设定比值,即将该主题赋予相应的病人诊疗天文档;(4‑2)针对某病人诊疗天文档,将(4‑1)中得到的主题按概率从大到小排序,并以“‑”连接,形成相应病人诊疗天文档的复合主题;(4‑3)针对(4‑2)中得到的病人诊疗天文档的复合主题,进行计数统计;(4‑4)如果(4‑3)中得到的某复合主题计数低于某一设定阈值,则进行低概率主题剪枝,具体操作为,将复合主题中最后一个主题直接剪除,若新的复合主题计数仍然过低,则继续进行剪枝直到计数满足所述阈值要求为止;(4‑5)针对某病人,将诊疗天文档按日期排序,并将相应复合主题串接在一起,形成相应病人的诊疗主题序列;(4‑6)针对(4‑5)中得到的诊疗主题序列,判断各诊疗主题序列是否是其它病人诊疗主题序列的子序列,若是则直接移除;(5)临床路径挖掘:将阶段(4)输出的诊疗主题序列整理成相应日志文件,对日志文件进行数据挖掘,得到最终的临床路径;具体包括以下步骤:(5‑1)将阶段(4)中得到的病人诊疗主题序列按照ProM日志文件要求整理成相应的日志文件;(5‑2)直接使用ProM中的启发式过程挖掘算法针对输入的病人诊疗主题序列日志文件进行挖掘,得到相应疾病的临床路径。
地址 100084 北京市海淀区清华园1号