发明名称 |
基于Web信息抽取的软件更新信息的监控方法和装置 |
摘要 |
本发明公开了一种基于Web信息抽取的软件更新信息的监控方法和装置,监控方法包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。本发明能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。 |
申请公布号 |
CN102929920B |
申请公布日期 |
2016.04.20 |
申请号 |
CN201210350925.X |
申请日期 |
2012.09.19 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
徐锐波;路轶 |
分类号 |
G06F17/30(2006.01)I;G06F21/53(2013.01)I;H04L29/06(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京智汇东方知识产权代理事务所(普通合伙) 11391 |
代理人 |
郭海彬;康正德 |
主权项 |
一种基于Web信息抽取的软件更新信息的监控方法,包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;在对所述有效链接进行过滤的步骤中,包括:根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库;在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;所述周期性检测包括:使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯;使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |