发明名称 一种基于分层检索的飞行特情处置快速检索方法
摘要 本发明提出了一种基于分层检索的飞行特情处置快速检索方法,将检索内容进行中英文分层,第一层为中文,使用中文直接对目标数据库对象进行优先过滤,以缩小检索范围;第二层为除中文以外的其他字符,使用中文拼音首字母将输入文本信息中的中文字符进行替换,并在第一层的检索结果中进行相似度分析比对,二次分析比对采用计算相似度的方式进行,相似度包括词形相似度和词序相似度两部分,以词形相似度起主要作用,词序相似度起次要作用,对于第二次分析后的检索结果进行按照相似度进行排序。相似度方法实现简单,有利于实现快速检索。
申请公布号 CN102968500B 申请公布日期 2015.04.15
申请号 CN201210521111.8 申请日期 2012.12.04
申请人 中国飞行试验研究院 发明人 符永鹏;张增民;毕爱军;吕鹏涛;岳媛媛;成耀飞;张娟;贠正平;陈浩;高文权;袁志鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 陈星
主权项 一种基于分层检索的飞行特情处置快速检索方法,其特征在于:包括以下步骤:步骤1:提取出输入的查询文本A中的中文字符串和英文字符串,提取出的中文字符串组成中文字词集合A1,提取出的英文字符串组成英文字词集合A2;步骤2:使用中文字词集合A1中的元素对特情处置方法数据库进行检索,得到检索结果集合B=(B1,B2,...,Bn),其中B的每个元素中都出现中文字词集合A1的至少一个元素;步骤3:将步骤2中检索结果集合B中的每个元素中的中文字符替换成中文字符对应的拼音首字母,得到新的检索结果集合C;步骤4:计算步骤3中新的检索结果集合C的每个元素与步骤1中的英文字词集合A2的相似度,其中新的检索结果集合C中的元素C1与英文字词集合A2的相似度的方法包括以下步骤:步骤4.1:分别计算元素C1与英文字词集合A2中每个元素的词形相似度,然后求和得到元素C1与英文字词集合A2的词形相似度,其中元素C1与英文字词集合A2中元素a2的词形相似度WordSim(C1,a2)为:<img file="FDA00002520897900011.GIF" wi="807" he="115" />其中,len(C1)和len(a2)表示元素C1和元素a2中字母的个数,SameWC(C1,a2)表示元素a2在元素C1中出现的个数;步骤4.2:分别计算元素C1与英文字词集合A2中每个元素的词序相似度,然后求和得到元素C1与英文字词集合A2的词序相似度,其中元素C1与英文字词集合A2中元素a2的词序相似度OrdSim(C1,a2)为:若|OnceWS(C1,a2)|>1,则<img file="FDA00002520897900012.GIF" wi="862" he="123" />若|OnceWS(C1,a2)|=1,则OrdSim(C1,a2)=1;若|OnceWS(C1,a2)|=0,则OrdSim(C1,a2)=0;其中,OnceWS(C1,a2)表示在元素C1和元素a2中都分别出现且都分别都只出现一次的英文字符串集合,|OnceWS(C1,a2)|表示集合OnceWS(C1,a2)的模;Pfirst(C1,a2)表 示OnceWS(C1,a2)中的各个元素在元素C1中的位置序号构成的向量,Psecond(C1,a2)表示Pfirst(C1,a2)的分量按对应OnceWS(C1,a2)中各个元素在元素a2中的位置重新排列后得到的向量,RevOrd(C1,a2)表示Psecond(C1,a2)各相邻分量的逆序数;步骤4.3:取步骤4.1得到的元素C1与英文字词集合A2的词形相似度的λ1倍,再与步骤4.2得到的元素C1与英文字词集合A2的词序相似度的λ2倍求和,得到元素C1与英文字词集合A2的相似度;其中λ1+λ2=1,且λ1>λ2;步骤5:新的检索结果集合C中与英文字词集合A2的相似度最大的元素作为最终检索结果。
地址 710089 陕西省西安市阎良区试飞院路8号