发明名称 |
一种众包网络爬虫抓取数据的检测方法及系统 |
摘要 |
一种众包网络爬虫抓取数据的检测方法,其能够确保众包网络爬虫抓取的数据是真实可靠的。这种众包网络爬虫抓取数据的检测方法,将服务器作为爬虫客户端抓取结果的检验中心,爬虫客户端把抓取的页面内容上传到检验中心,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。还提供了一种众包网络爬虫抓取数据的检测系统。 |
申请公布号 |
CN106326447A |
申请公布日期 |
2017.01.11 |
申请号 |
CN201610737578.4 |
申请日期 |
2016.08.26 |
申请人 |
北京量科邦信息技术有限公司 |
发明人 |
周灏;董超 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京和信华成知识产权代理事务所(普通合伙) 11390 |
代理人 |
胡剑辉 |
主权项 |
一种众包网络爬虫抓取数据的检测方法,其特征在于:将服务器作为爬虫客户端抓取结果的检验中心,爬虫客户端把抓取的页面内容上传到检验中心,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。 |
地址 |
100080 北京市海淀区丹棱街甲1号互联网金融中心11层1102 |