一种基于分层检索的飞行特情处置快速检索方法,申请号CN201210521111.8-传众专利搜索

发明名称	一种基于分层检索的飞行特情处置快速检索方法
摘要	本发明提出了一种基于分层检索的飞行特情处置快速检索方法，将检索内容进行中英文分层，第一层为中文，使用中文直接对目标数据库对象进行优先过滤，以缩小检索范围；第二层为除中文以外的其他字符，使用中文拼音首字母将输入文本信息中的中文字符进行替换，并在第一层的检索结果中进行相似度分析比对，二次分析比对采用计算相似度的方式进行，相似度包括词形相似度和词序相似度两部分，以词形相似度起主要作用，词序相似度起次要作用，对于第二次分析后的检索结果进行按照相似度进行排序。相似度方法实现简单，有利于实现快速检索。
申请公布号	CN102968500B	申请公布日期	2015.04.15
申请号	CN201210521111.8	申请日期	2012.12.04
申请人	中国飞行试验研究院	发明人	符永鹏;张增民;毕爱军;吕鹏涛;岳媛媛;成耀飞;张娟;贠正平;陈浩;高文权;袁志鹏
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西北工业大学专利中心 61204	代理人	陈星
主权项	一种基于分层检索的飞行特情处置快速检索方法，其特征在于：包括以下步骤：步骤1：提取出输入的查询文本A中的中文字符串和英文字符串，提取出的中文字符串组成中文字词集合A1，提取出的英文字符串组成英文字词集合A2；步骤2：使用中文字词集合A1中的元素对特情处置方法数据库进行检索，得到检索结果集合B=(B1，B2，...，Bn)，其中B的每个元素中都出现中文字词集合A1的至少一个元素；步骤3：将步骤2中检索结果集合B中的每个元素中的中文字符替换成中文字符对应的拼音首字母，得到新的检索结果集合C；步骤4：计算步骤3中新的检索结果集合C的每个元素与步骤1中的英文字词集合A2的相似度，其中新的检索结果集合C中的元素C1与英文字词集合A2的相似度的方法包括以下步骤：步骤4.1：分别计算元素C1与英文字词集合A2中每个元素的词形相似度，然后求和得到元素C1与英文字词集合A2的词形相似度，其中元素C1与英文字词集合A2中元素a2的词形相似度WordSim(C1，a2)为：<img file="FDA00002520897900011.GIF" wi="807" he="115" />其中，len(C1)和len(a2)表示元素C1和元素a2中字母的个数，SameWC(C1，a2)表示元素a2在元素C1中出现的个数；步骤4.2：分别计算元素C1与英文字词集合A2中每个元素的词序相似度，然后求和得到元素C1与英文字词集合A2的词序相似度，其中元素C1与英文字词集合A2中元素a2的词序相似度OrdSim(C1，a2)为：若\|OnceWS(C1，a2)\|＞1，则<img file="FDA00002520897900012.GIF" wi="862" he="123" />若\|OnceWS(C1，a2)\|＝1，则OrdSim(C1，a2)＝1；若\|OnceWS(C1，a2)\|＝0，则OrdSim(C1，a2)＝0；其中，OnceWS(C1，a2)表示在元素C1和元素a2中都分别出现且都分别都只出现一次的英文字符串集合，\|OnceWS(C1，a2)\|表示集合OnceWS(C1，a2)的模；Pfirst(C1，a2)表示OnceWS(C1，a2)中的各个元素在元素C1中的位置序号构成的向量，Psecond(C1，a2)表示Pfirst(C1，a2)的分量按对应OnceWS(C1，a2)中各个元素在元素a2中的位置重新排列后得到的向量，RevOrd(C1，a2)表示Psecond(C1，a2)各相邻分量的逆序数；步骤4.3：取步骤4.1得到的元素C1与英文字词集合A2的词形相似度的λ1倍，再与步骤4.2得到的元素C1与英文字词集合A2的词序相似度的λ2倍求和，得到元素C1与英文字词集合A2的相似度；其中λ1+λ2＝1，且λ1＞λ2；步骤5：新的检索结果集合C中与英文字词集合A2的相似度最大的元素作为最终检索结果。
地址	710089 陕西省西安市阎良区试飞院路8号