发明名称 基于Coreseek的垂直搜索引擎研究与优化的方法
摘要 一种基于Coreseek的垂直搜索引擎研究与优化的方法:通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,进行爬取信息;对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;扩充LibMMSeg分词库,将结构化的数据存入数据库,并进行中文分词,使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。本发明适应于短文本的图书搜索,更加能满足用户使用搜索引擎寻找图书信息的需求。
申请公布号 CN105912662A 申请公布日期 2016.08.31
申请号 CN201610222675.X 申请日期 2016.04.11
申请人 天津大学 发明人 喻梅;郭佳;于健;王建荣;高洁;姜月
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 杜文茹
主权项 一种基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,包括如下步骤:1)通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,然后利用基于分类预测的主题爬虫系统进行爬取信息;2)对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;3)扩充LibMMSeg分词库,对结构化的数据进行中文分词,并将结构化的数据存入数据库,并使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;4)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。
地址 300072 天津市南开区卫津路92号