发明名称 解决医疗数据标准编码对照问题的映射处理系统及方法
摘要 本发明提供一种解决医疗数据标准编码对照问题的映射处理系统及方法,该系统包括资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;该方法包括:从医疗数据源获取数据,根据目标值域库存储的标准码或匹配表存储的存储映射匹配规则信息,对获取的数据进行精确匹配映射;对从数据源获取的数据进行模糊语义分析;对模拟语义分词结果进行模糊匹配处理,并生成映射匹配结果;根据匹配表中的映射匹配规则信息将医疗数据映射成标准码,生成医疗数据映射处理结果。本发明建立了一种自动化映射匹配的处理流程,通过模糊匹配、人工校验、机器训练等技术相结合的方式,实现映射匹配结果的较高准确性和匹配精度。
申请公布号 CN104156415B 申请公布日期 2017.04.12
申请号 CN201410374349.1 申请日期 2014.07.31
申请人 沈阳锐易特软件技术有限公司 发明人 李轶强;马国耀;蔡军;孙勇韬;肖华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大知识产权代理有限公司 21109 代理人 朱光林
主权项 一种解决医疗数据标准编码对照问题的映射处理系统,其特征在于:包括:资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;资源词库:存储有基础词汇和医疗专业词汇;目标值域库:用于存储标准码,即GB/T或医疗行业规范定义的编码值;模拟语义分词单元:包括分词模块、词库加载模块、词元处理模块、相似度评估模块和分析模块;所述分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理;所述词库加载模块用于实现字典加载管理,对资源词库信息进行加载,将资源词库中的基础词汇和医疗专业词汇加载到缓存中,为词元处理模块提供词元信息;所述词元处理模块对词库加载模块提供的词元信息进行缓存,对中文词汇、数量词汇、字母词汇进行分类处理,并为分析模块提供词元支撑;所述相似度评估模块用于对分类处理后数据的相似度评估,得到相似度评估结果;所述分析模块用于对分词模块、相似度评估模块、词元处理模块进行协调调度,并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元;模糊匹配单元:包括语法分析模块、索引创建模块、索引存储模块、索引库、索引搜索模块、相关性排序模块和匹配优化模块;模糊匹配单元用于根据目标值域库信息对模拟语义分词处理结果进行模糊匹配处理;所述语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词;所述索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引;所述索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中;所述索引库用于存储词典索引和反向索引;所述索引搜索模块用于将索引库中的词典索引和反向索引载入到内存,利用查询树搜索索引,得到每个词对应的数据源信息链表,对该信息链表进行布尔运算后获得数据源信息的具体指向位置,从而得到索引搜索结果;所述相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序;所述匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系,并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中;精确匹配单元:包括数据获取模块和精确匹配模块;所述数据获取模块用于获取数据源提供的数据信息;所述精确匹配模块用于根据数据获取模块获取的数据源提供的数据信息与目标值域库存储的标准码或者匹配表存储的映射匹配规则信息进行精确匹配映射,生成数据映射匹配结果,即精确匹配结果;所述匹配表用于存储映射匹配规则信息,映射匹配规则信息即数据源的数据信息与目标值域库间的匹配关联关系;人工管理单元:用于对资源词库、目标值域库与匹配表进行调整。
地址 110179 辽宁省沈阳市浑南新区世纪路22号702-2室