发明名称 |
基于Coreseek的垂直搜索引擎研究与优化的方法 |
摘要 |
一种基于Coreseek的垂直搜索引擎研究与优化的方法:通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,进行爬取信息;对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;扩充LibMMSeg分词库,将结构化的数据存入数据库,并进行中文分词,使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。本发明适应于短文本的图书搜索,更加能满足用户使用搜索引擎寻找图书信息的需求。 |
申请公布号 |
CN105912662A |
申请公布日期 |
2016.08.31 |
申请号 |
CN201610222675.X |
申请日期 |
2016.04.11 |
申请人 |
天津大学 |
发明人 |
喻梅;郭佳;于健;王建荣;高洁;姜月 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
天津市北洋有限责任专利代理事务所 12201 |
代理人 |
杜文茹 |
主权项 |
一种基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,包括如下步骤:1)通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,然后利用基于分类预测的主题爬虫系统进行爬取信息;2)对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;3)扩充LibMMSeg分词库,对结构化的数据进行中文分词,并将结构化的数据存入数据库,并使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;4)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。 |
地址 |
300072 天津市南开区卫津路92号 |