发明名称 |
一种定向信息抓取场景中大规模IP地址资源使用方法 |
摘要 |
本发明提供一种定向信息抓取场景中大规模IP地址资源使用方法。包括以下步骤:针对设置了访问频率限制的网络资源,建立包含IP地址集合L中全部IP地址的优先队列;分配可用IP地址时,取出优先队列中优先级最高的IP地址,并更新该IP地址的下次可访问该网络资源的时刻,若当前时刻大于或等于t,则当前任务可立即使用该IP地址;针对每个IP地址维护该IP地址的使用次数un和访问失败次数fn,当从优先队列中取出的优先级最高的IP地址时,以1-fn/un的概率选用,fn/un的概率放弃。既实现IP地址访问能力充分利用;又提高网络信息获取任务的成功率。 |
申请公布号 |
CN105721631A |
申请公布日期 |
2016.06.29 |
申请号 |
CN201610182957.1 |
申请日期 |
2016.03.28 |
申请人 |
中国科学院信息工程研究所 |
发明人 |
时金桥;谭庆丰;王学宾 |
分类号 |
H04L29/12(2006.01)I |
主分类号 |
H04L29/12(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
余功勋 |
主权项 |
一种定向信息抓取场景中大规模IP地址资源使用方法,包括以下步骤:针对设置了访问频率限制的网络资源,根据一IP地址集合中每个IP地址下次可访问该网络资源的时刻建立包含集合中全部IP地址的优先队列;在向某个网络信息采集任务分配可用IP地址时,取出优先队列中优先级最高的IP地址,并更新该IP地址的下次可访问该网络资源的时刻,重新将其放入优先队列;若当前时刻大于或等于其下次可访问该网络资源的时刻,则当前任务可立即使用该IP地址,否则当前任务阻塞直至当前时刻大于或等于其下次可访问该网络资源的时刻,方可使用该IP地址;针对每个IP地址维护该IP地址的使用次数和访问失败次数,当从优先队列中取出的优先级最高的IP地址时,以1‑访问失败次数/该IP地址的使用次数的概率选用,访问失败次数/该IP地址的使用次数的概率放弃;若该优先级最高的IP地址被放弃,则继续根据优先级从优先队列中取出IP地址,直到有一个IP地址被选用。 |
地址 |
100093 北京市海淀区闵庄路甲89号 |