发明名称 适于URL数据抓取中对数据缓存的方法及装置
摘要 本发明公开了一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。采用本发明能够以空间换时间,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。
申请公布号 CN105930405A 申请公布日期 2016.09.07
申请号 CN201610237936.5 申请日期 2013.07.12
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 韩孟岗
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 康正德;孙晓芳
主权项 一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)