发明名称 |
一种基于分布式网络数据定向采集的方法 |
摘要 |
本发明公开了一种基于分布式网络数据定向采集的方法,具体按照以下步骤:步骤1、确定需要采集的URL;步骤2、针对步骤1中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量;步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。本发明一种基于分布式网络数据定向采集的方法,采用分布式的方式进行网络数据的采集,解决了网络数据中网页数量巨大、网页更新数量巨大并更新频率快、网页中部分数据为动态加载等网络数据无法正常采集的问题,提升了网络数据采集的效率,定制采集策略完成网络数据定向采集。 |
申请公布号 |
CN105207852A |
申请公布日期 |
2015.12.30 |
申请号 |
CN201510648636.1 |
申请日期 |
2015.10.09 |
申请人 |
西安未来国际信息股份有限公司 |
发明人 |
张磊;张辉 |
分类号 |
H04L12/26(2006.01)I |
主分类号 |
H04L12/26(2006.01)I |
代理机构 |
西安弘理专利事务所 61214 |
代理人 |
罗笛 |
主权项 |
一种基于分布式网络数据定向采集的方法,其特征在于,具体按照以下步骤:步骤1、确定需要采集的URL;步骤2、针对步骤1中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量;步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。 |
地址 |
710075 陕西省西安市高新区高新一路25号创新大厦北四层 |