发明名称 基于Web信息抽取的软件更新信息的监控方法和装置
摘要 本发明公开了一种基于Web信息抽取的软件更新信息的监控方法和装置,监控方法包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。本发明能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
申请公布号 CN102929920B 申请公布日期 2016.04.20
申请号 CN201210350925.X 申请日期 2012.09.19
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 徐锐波;路轶
分类号 G06F17/30(2006.01)I;G06F21/53(2013.01)I;H04L29/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 郭海彬;康正德
主权项 一种基于Web信息抽取的软件更新信息的监控方法,包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;在对所述有效链接进行过滤的步骤中,包括:根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库;在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;所述周期性检测包括:使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯;使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)