主权项 |
一种基于关键词的WEB服务器扩展检索方法,其特征在于,包括如下步骤:1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成;2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端;所述关联词对应关系,是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由此获得关联词对应关系;所述拼音与汉字对应关系根据汉语词典获得;所述英文与汉字对应关系根据英汉对照词典获得;所述同义词对应关系根据同义词词典获得。 |