发明名称 |
一种用于房库网的网络爬虫服务系统 |
摘要 |
本发明提出了一种用于房库网的网络爬虫服务系统,可快速的进行网站挖掘并提取房产相关的数据,包括:网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;部署服务模块,用于对网站爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理。 |
申请公布号 |
CN104182462A |
申请公布日期 |
2014.12.03 |
申请号 |
CN201410347463.5 |
申请日期 |
2014.07.21 |
申请人 |
安徽华贞信息科技有限公司 |
发明人 |
贾岩 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
合肥市长远专利代理事务所(普通合伙) 34119 |
代理人 |
程笃庆;黄乐瑜 |
主权项 |
一种用于房库网的网络爬虫服务系统,其特征在于,包括:网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;部署服务模块,用于对网站爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理;网站爬虫模块分别连接连接监控服务模块、管理服务模块、部署服务模块和调度服务模块,监控服务模块连接管理服务模块,管理服务模块分别连接部署服务模块和调度服务模块;工作时,调度服务模块对网站爬虫的工作方式、时间、停止进行调度管理,部署服务模块从网站爬虫模块调用网站爬虫对相应的网站进行数据挖掘,监控服务模块监控网站爬虫的工作情况,当个别网站爬虫工作异常时,监控服务模块通知管理服务模块对异常的网站爬虫进行参数及工作方式调节,当异常网站爬虫达到或超过门限值a时,监控服务模块通知管理服务模块停止系统抓取网站数据,然后,管理服务模块通知调度服务模块和部署服务模块重新对网站爬虫进行调度和部署后再次进行网站数据挖掘,并由监控服务模块进行监控,循环往复。 |
地址 |
230000 安徽省合肥市高新区黄山路602号国家大学科技园A502 |