发明名称 用于挖掘时效性种子页的方法及装置
摘要 本发明公开了一种用于挖掘时效性种子页的方法及装置。其中方法包括:分析网页抓取日志,提取出由第一页面到第二页面的跳转行为;解析所述第二页面的网址信息,判断所述第二页面的网址信息是否包含最新的时间标志以及所述第一页面和所述第二页面是否属于同一个站点,若判断结果均为是,则将所述第一页面作为候选的时效性种子页面;对所述候选的时效性种子页面进行验证,根据验证通过的时效性种子页面确定网址信息模板,以供网络爬虫根据所述网址信息模板抓取页面。该方法利用网页可以跳转到具有最新的时间标志的页面的特性,根据网址信息模板挖掘时效性种子网页,而不用解析网页主体即可识别网页类型;方法简单易实现,准确率高。
申请公布号 CN103838865B 申请公布日期 2017.04.05
申请号 CN201410105792.9 申请日期 2014.03.20
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 王智广
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市浩天知识产权代理事务所(普通合伙) 11276 代理人 宋菲;刘云贵
主权项 一种用于挖掘时效性种子页的方法,包括:分析网页抓取日志,提取出由第一页面到第二页面的跳转行为;解析所述第二页面的网址信息,判断所述第二页面的网址信息是否包含最新的时间标志以及所述第一页面和所述第二页面是否属于同一个站点,若判断结果均为是,则将所述第一页面作为候选的时效性种子页面;对所述候选的时效性种子页面进行验证,根据验证通过的时效性种子页面确定网址信息模板,以供网络爬虫根据所述网址信息模板抓取页面。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)