发明名称 一种电子病历查询语句的构造方法
摘要 本发明公开了一种电子病历查询语句的构造方法,该方法包括电子病历语料预处理,医学术语抽取及筛选,医学术语权重计算,新查询语句构造四步骤;其中:电子病历语料预处理包括分词、词频统计、概率分布参数计算;医学术语抽取及筛选包括分词、医学术语抽取及去掉医学停用词;医学术语权重计算包括泊松分布拟合词分布、医学术语出现概率计算及医学术语自信息计算;新查询构造是将得到的带权重医学术语与原始查询语句,通过线性平滑参数结合,得到新查询语句。本发明应用到一个新的病历集合上,就可以在该病历集合上进行更加有效的查询,提高了电子病历检索的准确度。
申请公布号 CN104268144A 申请公布日期 2015.01.07
申请号 CN201410394537.0 申请日期 2014.08.12
申请人 华东师范大学 发明人 王文斌;顾君忠
分类号 G06F17/30(2006.01)I;G06Q50/24(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海蓝迪专利事务所 31215 代理人 徐筱梅;张翔
主权项 一种电子病历查询语句的构造方法,其特征在于该方法包括以下具体步骤:a)、电子病历语料预处理对电子病历语料文本进行分词,去掉停用词之后,得到语料中出现的所有词;利用公式(1)计算每个词t在每篇病历中的平均出现次数;<img file="2014103945370100001dest_path_image001.GIF" wi="123" he="83" />(1)其中,<img file="361294dest_path_image002.GIF" wi="15" he="56" />表示词t的平均出现次数,n表示电子病历语料集合的大小,<img file="2014103945370100001dest_path_image003.GIF" wi="20" he="56" />表示词t在第i篇病历中出现的次数;通过计算得到每个词t对应的<img file="278434dest_path_image004.GIF" wi="15" he="56" />;b)、医学术语抽取及筛选首先,抽取原始查询语句中出现的医学术语;再在抽取出的医学术语中去掉医学停用词,剩下的医学术语的集合记为<img file="2014103945370100001dest_path_image005.GIF" wi="219" he="56" />,其中<img file="58172dest_path_image006.GIF" wi="23" he="56" />表示第i个医学术语,每个医学术语有可能由多个词组成;c)、医学术语权重计算计算每个医学术语<img file="2014103945370100001dest_path_image007.GIF" wi="23" he="56" />的权重<img file="391064dest_path_image008.GIF" wi="24" he="56" />,具体包括:ⅰ)、计算组成医学术语的词的出现概率<img file="2014103945370100001dest_path_image009.GIF" wi="39" he="56" />;使用泊松分布来拟合词t的概率分布;那么<img file="205436dest_path_image009.GIF" wi="39" he="56" />使用公式(2)来计算;<img file="27899dest_path_image010.GIF" wi="395" he="56" />(2)其中,T表示词t的出现次数,<img file="294932dest_path_image004.GIF" wi="15" he="56" />表示词t的平均出现次数,e表示自然常数;ⅱ)、计算医学术语<img file="2014103945370100001dest_path_image011.GIF" wi="21" he="56" />在电子病历语料中出现的概率<img file="493832dest_path_image012.GIF" wi="53" he="56" />;医学术语<img file="162711dest_path_image006.GIF" wi="23" he="56" />中每个词的出现是相互独立事件,<img file="156075dest_path_image012.GIF" wi="53" he="56" />使用公式(3)计算;<img file="2014103945370100001dest_path_image013.GIF" wi="224" he="65" />(3)         ⅲ)、计算每个医学术语<img file="848087dest_path_image014.GIF" wi="23" he="56" />的权重<img file="2014103945370100001dest_path_image015.GIF" wi="24" he="56" />,使用自信息的定义,即公式(4)计算;<img file="2014103945370100001dest_path_image024.GIF" wi="120" he="62" />(4)d)、新查询语句构造使用原始查询语句、<img file="585099dest_path_image016.GIF" wi="117" he="56" />以及对应的<img file="2014103945370100001dest_path_image017.GIF" wi="121" he="56" />构造新的查询语句,具体包括:ⅰ)、对于原始查询语句,组成原始查询语句的词之间的权重平均分配,得到查询子句1;ⅱ)、对于医学术语<img file="108484dest_path_image011.GIF" wi="21" he="56" />内部,医学术语<img file="538329dest_path_image011.GIF" wi="21" he="56" />中每个词的权重平均分配;ⅲ)、对于医学术语<img file="779954dest_path_image011.GIF" wi="21" he="56" />之间,每个医学术语<img file="55078dest_path_image006.GIF" wi="23" he="56" />分配到的权重是<img file="698548dest_path_image018.GIF" wi="85" he="56" />,得到查询子句2;ⅳ)、将查询子句1和查询子句2,按照<img file="2014103945370100001dest_path_image019.GIF" wi="113" he="56" />的比例分配权重,得到新查询语句,其中<img file="33715dest_path_image020.GIF" wi="15" he="56" />的取值范围是[0, 1]。
地址 200241 上海市闵行区东川路500号