发明名称 一种中文病理文本结构化处理方法
摘要 本发明涉及一种中文病理文本结构化处理方法,包括以下步骤:从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息;对模板信息进行提取,包括短句切分和指标名提取;短句分类;对每个样本结合分类结果集合CLUSTER和短句集CLAUSE,计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C-value值,筛选出TF值、IDF值和C-value值满足阈值的指标名,作为最终模板中的成分。本发明能够将非结构化的中文病理文本结构化。
申请公布号 CN104899260A 申请公布日期 2015.09.09
申请号 CN201510260060.1 申请日期 2015.05.20
申请人 东华大学;上海交通大学医学院附属瑞金医院 发明人 陈德华;冯洁莹;朱立峰;乐嘉锦;刘茜茜;薛瑞东
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海泰能知识产权代理事务所 31233 代理人 宋缨;孙健
主权项 一种中文病理文本结构化处理方法,其特征在于,包括以下步骤:(1)从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息;(2)对模板信息进行提取,包括短句切分和指标名提取;短句分类;(3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE,计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C‑value值,筛选出TF值、IDF值和C‑value值满足阈值的指标名,作为最终模板中的成分。
地址 201620 上海市松江区松江新城人民北路2999号