发明名称 一种基于分布式网络数据定向采集的方法
摘要 本发明公开了一种基于分布式网络数据定向采集的方法,具体按照以下步骤:步骤1、确定需要采集的URL;步骤2、针对步骤1中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量;步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。本发明一种基于分布式网络数据定向采集的方法,采用分布式的方式进行网络数据的采集,解决了网络数据中网页数量巨大、网页更新数量巨大并更新频率快、网页中部分数据为动态加载等网络数据无法正常采集的问题,提升了网络数据采集的效率,定制采集策略完成网络数据定向采集。
申请公布号 CN105207852A 申请公布日期 2015.12.30
申请号 CN201510648636.1 申请日期 2015.10.09
申请人 西安未来国际信息股份有限公司 发明人 张磊;张辉
分类号 H04L12/26(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 西安弘理专利事务所 61214 代理人 罗笛
主权项 一种基于分布式网络数据定向采集的方法,其特征在于,具体按照以下步骤:步骤1、确定需要采集的URL;步骤2、针对步骤1中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量;步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。
地址 710075 陕西省西安市高新区高新一路25号创新大厦北四层