发明名称 垂直搜索引擎的实现方法
摘要 本申请公开了一种垂直搜索引擎的实现方法,首先建立地理词数据库、特征词数据库、地址检索训练库。然后由网页抓取程序搜集网页信息。接着由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个。最后由检索程序响应用户的查询内容。检索程序判断查询内容是否属于按地址检索;如果属于,则以坐标值、特征码、关键词单独或组合检索。如果不属于,则以特征码、关键词单独或组合检索。检索结果展示给用户。本申请采用朴素贝叶斯分类算法判断检索意图,并构建了网页的三类索引库,以这三类索引库相组合进行检索,由此可得到更符合用户需求、更为精准的检索结果。
申请公布号 CN102880721B 申请公布日期 2015.10.28
申请号 CN201210390588.7 申请日期 2012.10.15
申请人 瑞庭网络技术(上海)有限公司 发明人 黄水清;张尔宁;梁山
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海浦一知识产权代理有限公司 31211 代理人 殷晓雪
主权项 一种垂直搜索引擎的实现方法,其特征是,所述方法为:第一步,建立地理词数据库、特征词数据库、地址检索训练库;所述地理词数据库包括多个地理词以及部分或全部的地理词所对应的坐标值;所述特征词数据库包括多个特征词及其相应的互不重复的特征码;所述地址检索训练库包括多段话、它们均已由朴素贝叶斯分类算法分类为“具有按地址检索的意图”或“不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中的每个词汇对于所述两个类别的条件概率也已统计计算出;第二步,由网页抓取程序搜集网页信息;第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个;第四步,由检索程序响应用户的查询内容;检索程序根据朴素贝叶斯分类算法判断查询内容是否属于按地址检索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为关键词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如果不属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引库、关键词索引库中单独或组合检索的条件;检索结果展示给用户。
地址 200120 上海市浦东新区陆家嘴环路166号未来资产大厦10楼