发明名称 一种基于相似度计算的网页变更监测方法和系统
摘要 本发明的一种基于相似度计算的网页变更监测方法和系统,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。
申请公布号 CN106599242A 申请公布日期 2017.04.26
申请号 CN201611182671.X 申请日期 2016.12.20
申请人 福建六壬网安股份有限公司 发明人 刘坤朋;郑杭;练军
分类号 G06F17/30(2006.01)I;G06F21/55(2013.01)I;G06F21/56(2013.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州科扬专利事务所 35001 代理人 徐开翟
主权项 一种基于相似度计算的网页变更监测方法,其特征在于,包含以下步骤:S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0‑100;S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;S61:结束所述网页内容的监测;S62:发出警告,结束所述网页内容的监测;S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;S71:利用DIFF工具找出所述网页内容相比初始状态的差异;S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;S81:发出警告,结束所述网页内容的监测;S82:结束所述网页内容的监测;S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
地址 350015 福建省福州市马尾区马尾图书馆第四层(自贸试验区内)