发明名称 一种药品信息的自然语言处理方法及系统
摘要 本发明的实施方式提供了一种药品信息的自然语言处理方法及系统。该药品信息的自然语言处理方法包括:输入药品信息字符串并进行预处理;切分规格字符串和包装规格字符串;基于预先建立的词典集,切分第一类型子字符串和/或第二类型子字符串;对第二类型子字符串以及词条进行解析;将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一个或多个词条;输出规格字符串、包装规格字符串及其对应的词条属性,以及输出第一类型子字符串、第二类型子字符串相匹配的词条及其对应的词条属性。本发明实现了对药品信息字符串的识别,提升了药品信息的识别成功率,为有效利用和管理药品信息提供了便利。
申请公布号 CN105068994A 申请公布日期 2015.11.18
申请号 CN201510496389.8 申请日期 2015.08.13
申请人 易保互联医疗信息科技(北京)有限公司 发明人 陈志永;朱华玲
分类号 G06F17/27(2006.01)I;G06F19/00(2011.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京三友知识产权代理有限公司 11127 代理人 汤在彦
主权项 一种药品信息的自然语言处理方法,包括:步骤1,输入药品信息字符串;步骤2,对所述药品信息字符串进行预处理,得到预处理药品信息字符串;步骤3,基于预设的规格词典和包装规格词典,从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;步骤4,基于预设的词典集,从所述预处理药品信息字符串的剩余字符中切分出若干第一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的词条直接匹配;步骤5,对所述第二类型子字符串和所述词典集中的词条进行解析,得到第二类型子字符串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一个或多个词条;步骤6,输出所述规格字符串、所述包装规格字符串及其对应的词条属性,以及输出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性;所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。
地址 100027 北京市朝阳区新源里16号琨莎中心2座12B层