发明名称 一种WEB应用系统内容变更的检测方法及系统
摘要 本发明提供了一种WEB应用系统内容变更的检测方法及系统,该方法及系统通过将抓取到的网站网页内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;利用保存的检测次数和抓取到的页面文件是否存在来判断该网站是否为新网站和该网页是否为新网页;判断该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素是否相同,如果检测为发生变更则输出检测结果。本发明提供的方法及系统,对WEB应用系统内容进行了全方位的检测,从页面特征库码、页面内容元素和页面动态或者静态内容精细化定位页面内容变更的具体原因,从而取得网页检测的准确度,为WEB应用系统内容变更的检测提供了方便。
申请公布号 CN103279475A 申请公布日期 2013.09.04
申请号 CN201310124832.X 申请日期 2013.04.11
申请人 广东电网公司信息中心 发明人 陈军;王甜;邹洪;崔磊;朱奕;艾解清;吴一阳;卜夏锋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市君胜知识产权代理事务所 44268 代理人 王永文;刘文求
主权项 一种WEB应用系统内容变更的检测方法,其特征在于,包括以下方法步骤:A、每隔一预定的时间对网站网页内容进行检测,并抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;并将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;B、依次判断该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;C、输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示。
地址 510600 广东省广州市越秀区水均岗路6-8号