一种电子病历查询语句的构造方法,申请号CN201410394537.0-传众专利搜索

发明名称	一种电子病历查询语句的构造方法
摘要	本发明公开了一种电子病历查询语句的构造方法，该方法包括电子病历语料预处理，医学术语抽取及筛选，医学术语权重计算，新查询语句构造四步骤；其中：电子病历语料预处理包括分词、词频统计、概率分布参数计算；医学术语抽取及筛选包括分词、医学术语抽取及去掉医学停用词；医学术语权重计算包括泊松分布拟合词分布、医学术语出现概率计算及医学术语自信息计算；新查询构造是将得到的带权重医学术语与原始查询语句，通过线性平滑参数结合，得到新查询语句。本发明应用到一个新的病历集合上，就可以在该病历集合上进行更加有效的查询，提高了电子病历检索的准确度。
申请公布号	CN104268144A	申请公布日期	2015.01.07
申请号	CN201410394537.0	申请日期	2014.08.12
申请人	华东师范大学	发明人	王文斌;顾君忠
分类号	G06F17/30(2006.01)I;G06Q50/24(2012.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海蓝迪专利事务所 31215	代理人	徐筱梅;张翔
主权项	一种电子病历查询语句的构造方法，其特征在于该方法包括以下具体步骤：a）、电子病历语料预处理对电子病历语料文本进行分词，去掉停用词之后，得到语料中出现的所有词；利用公式（1）计算每个词t在每篇病历中的平均出现次数；<img file="2014103945370100001dest_path_image001.GIF" wi="123" he="83" />（1）其中，<img file="361294dest_path_image002.GIF" wi="15" he="56" />表示词t的平均出现次数，n表示电子病历语料集合的大小，<img file="2014103945370100001dest_path_image003.GIF" wi="20" he="56" />表示词t在第i篇病历中出现的次数；通过计算得到每个词t对应的<img file="278434dest_path_image004.GIF" wi="15" he="56" />；b）、医学术语抽取及筛选首先，抽取原始查询语句中出现的医学术语；再在抽取出的医学术语中去掉医学停用词，剩下的医学术语的集合记为<img file="2014103945370100001dest_path_image005.GIF" wi="219" he="56" />，其中<img file="58172dest_path_image006.GIF" wi="23" he="56" />表示第i个医学术语，每个医学术语有可能由多个词组成；c）、医学术语权重计算计算每个医学术语<img file="2014103945370100001dest_path_image007.GIF" wi="23" he="56" />的权重<img file="391064dest_path_image008.GIF" wi="24" he="56" />，具体包括：ⅰ）、计算组成医学术语的词的出现概率<img file="2014103945370100001dest_path_image009.GIF" wi="39" he="56" />；使用泊松分布来拟合词t的概率分布；那么<img file="205436dest_path_image009.GIF" wi="39" he="56" />使用公式（2）来计算；<img file="27899dest_path_image010.GIF" wi="395" he="56" />（2）其中，T表示词t的出现次数，<img file="294932dest_path_image004.GIF" wi="15" he="56" />表示词t的平均出现次数，e表示自然常数；ⅱ）、计算医学术语<img file="2014103945370100001dest_path_image011.GIF" wi="21" he="56" />在电子病历语料中出现的概率<img file="493832dest_path_image012.GIF" wi="53" he="56" />；医学术语<img file="162711dest_path_image006.GIF" wi="23" he="56" />中每个词的出现是相互独立事件，<img file="156075dest_path_image012.GIF" wi="53" he="56" />使用公式（3）计算；<img file="2014103945370100001dest_path_image013.GIF" wi="224" he="65" />（3） ⅲ）、计算每个医学术语<img file="848087dest_path_image014.GIF" wi="23" he="56" />的权重<img file="2014103945370100001dest_path_image015.GIF" wi="24" he="56" />，使用自信息的定义，即公式（4）计算；<img file="2014103945370100001dest_path_image024.GIF" wi="120" he="62" />（4）d）、新查询语句构造使用原始查询语句、<img file="585099dest_path_image016.GIF" wi="117" he="56" />以及对应的<img file="2014103945370100001dest_path_image017.GIF" wi="121" he="56" />构造新的查询语句，具体包括：ⅰ）、对于原始查询语句，组成原始查询语句的词之间的权重平均分配，得到查询子句1；ⅱ）、对于医学术语<img file="108484dest_path_image011.GIF" wi="21" he="56" />内部，医学术语<img file="538329dest_path_image011.GIF" wi="21" he="56" />中每个词的权重平均分配；ⅲ）、对于医学术语<img file="779954dest_path_image011.GIF" wi="21" he="56" />之间，每个医学术语<img file="55078dest_path_image006.GIF" wi="23" he="56" />分配到的权重是<img file="698548dest_path_image018.GIF" wi="85" he="56" />，得到查询子句2；ⅳ）、将查询子句1和查询子句2，按照<img file="2014103945370100001dest_path_image019.GIF" wi="113" he="56" />的比例分配权重，得到新查询语句，其中<img file="33715dest_path_image020.GIF" wi="15" he="56" />的取值范围是[0, 1]。
地址	200241 上海市闵行区东川路500号