发明名称 |
一种基于分层检索的飞行特情处置快速检索方法 |
摘要 |
本发明提出了一种基于分层检索的飞行特情处置快速检索方法,将检索内容进行中英文分层,第一层为中文,使用中文直接对目标数据库对象进行优先过滤,以缩小检索范围;第二层为除中文以外的其他字符,使用中文拼音首字母将输入文本信息中的中文字符进行替换,并在第一层的检索结果中进行相似度分析比对,二次分析比对采用计算相似度的方式进行,相似度包括词形相似度和词序相似度两部分,以词形相似度起主要作用,词序相似度起次要作用,对于第二次分析后的检索结果进行按照相似度进行排序。相似度方法实现简单,有利于实现快速检索。 |
申请公布号 |
CN102968500B |
申请公布日期 |
2015.04.15 |
申请号 |
CN201210521111.8 |
申请日期 |
2012.12.04 |
申请人 |
中国飞行试验研究院 |
发明人 |
符永鹏;张增民;毕爱军;吕鹏涛;岳媛媛;成耀飞;张娟;贠正平;陈浩;高文权;袁志鹏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
西北工业大学专利中心 61204 |
代理人 |
陈星 |
主权项 |
一种基于分层检索的飞行特情处置快速检索方法,其特征在于:包括以下步骤:步骤1:提取出输入的查询文本A中的中文字符串和英文字符串,提取出的中文字符串组成中文字词集合A1,提取出的英文字符串组成英文字词集合A2;步骤2:使用中文字词集合A1中的元素对特情处置方法数据库进行检索,得到检索结果集合B=(B1,B2,...,Bn),其中B的每个元素中都出现中文字词集合A1的至少一个元素;步骤3:将步骤2中检索结果集合B中的每个元素中的中文字符替换成中文字符对应的拼音首字母,得到新的检索结果集合C;步骤4:计算步骤3中新的检索结果集合C的每个元素与步骤1中的英文字词集合A2的相似度,其中新的检索结果集合C中的元素C1与英文字词集合A2的相似度的方法包括以下步骤:步骤4.1:分别计算元素C1与英文字词集合A2中每个元素的词形相似度,然后求和得到元素C1与英文字词集合A2的词形相似度,其中元素C1与英文字词集合A2中元素a2的词形相似度WordSim(C1,a2)为:<img file="FDA00002520897900011.GIF" wi="807" he="115" />其中,len(C1)和len(a2)表示元素C1和元素a2中字母的个数,SameWC(C1,a2)表示元素a2在元素C1中出现的个数;步骤4.2:分别计算元素C1与英文字词集合A2中每个元素的词序相似度,然后求和得到元素C1与英文字词集合A2的词序相似度,其中元素C1与英文字词集合A2中元素a2的词序相似度OrdSim(C1,a2)为:若|OnceWS(C1,a2)|>1,则<img file="FDA00002520897900012.GIF" wi="862" he="123" />若|OnceWS(C1,a2)|=1,则OrdSim(C1,a2)=1;若|OnceWS(C1,a2)|=0,则OrdSim(C1,a2)=0;其中,OnceWS(C1,a2)表示在元素C1和元素a2中都分别出现且都分别都只出现一次的英文字符串集合,|OnceWS(C1,a2)|表示集合OnceWS(C1,a2)的模;Pfirst(C1,a2)表 示OnceWS(C1,a2)中的各个元素在元素C1中的位置序号构成的向量,Psecond(C1,a2)表示Pfirst(C1,a2)的分量按对应OnceWS(C1,a2)中各个元素在元素a2中的位置重新排列后得到的向量,RevOrd(C1,a2)表示Psecond(C1,a2)各相邻分量的逆序数;步骤4.3:取步骤4.1得到的元素C1与英文字词集合A2的词形相似度的λ1倍,再与步骤4.2得到的元素C1与英文字词集合A2的词序相似度的λ2倍求和,得到元素C1与英文字词集合A2的相似度;其中λ1+λ2=1,且λ1>λ2;步骤5:新的检索结果集合C中与英文字词集合A2的相似度最大的元素作为最终检索结果。 |
地址 |
710089 陕西省西安市阎良区试飞院路8号 |