发明名称 一种搜索引擎数据采集入口构建方法和装置
摘要 本发明涉及计算机技术领域,特别是涉及一种搜索引擎数据采集入口构建方法和装置,所述方法包括:利用第一关键词集合中的关键词进行搜索,获取搜索结果对应的网页地址,利用所述网页地址构建初始数据采集入口集合;获取初始数据采集入口集合中的网页地址对应的第一更新数据;利用第二关键词集合中的关键词在所述第一更新数据中进行搜索,获取搜索结果对应的网页地址,利用所述网页地址构建正式数据采集入口集合;其中,所述第一关键词集合以及所述第二关键词集合均与预定搜索领域相关联。本发明可以提供面向特定领域的准确的、全面的深度采集入口,以为用户提供更加准确、全面的深度搜索结果。
申请公布号 CN103390024A 申请公布日期 2013.11.13
申请号 CN201310244613.5 申请日期 2013.06.19
申请人 北京时间中国网科技有限公司;北京点玩伟业软件技术有限公司 发明人 文小超;兰颖峰;刘凯
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王宝筠
主权项 一种搜索引擎数据采集入口构建方法,其特征在于,所述方法包括:利用第一关键词集合中的关键词在第一数据中进行搜索,获取搜索结果对应的网页地址,利用所述网页地址构建初始数据采集入口集合;获取初始数据采集入口集合中的网页地址对应的第一更新数据;其中,所述第一更新数据与所述第一数据不同;利用第二关键词集合中的关键词在所述第一更新数据中进行搜索,获取搜索结果对应的网页地址,利用所述网页地址构建正式数据采集入口集合;其中,所述第一关键词集合以及所述第二关键词集合均与预定搜索领域相关联。
地址 100089 北京市海淀区西三环北路89号中国外文大厦B座5层