发明名称 用于安全产业链的智能垂直搜索装置和方法
摘要 本发明公开了一种用于安全产业链的智能垂直搜索装置和方法,用于安全产业链的智能垂直搜索装置包括,爬行器引擎即搜索器引擎;调度;下载器:下载器抓取网页并将网页内容返还给蜘蛛;蜘蛛:蜘蛛是爬行器用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛能处理一个域名或一组域名,即用来定义特定网站的抓取和解析规则;搜素因子库;项目管道;下载器中间件;蜘蛛中间件;调度中间件:调度中间件是介于爬行器引擎和调度之间的中间件,负责处理从爬行器引擎发送到调度的请求和响应,并提供了一个自定义的代码来拓展爬行器的功能。实现可靠、准确、实时且智能搜索的优点。
申请公布号 CN103886033B 申请公布日期 2017.02.08
申请号 CN201410078014.5 申请日期 2014.03.05
申请人 无锡香象生物科技有限公司 发明人 刘欣毅;李昂生
分类号 G06F17/30(2006.01)I;G06F9/46(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中恒高博知识产权代理有限公司 11249 代理人 宋敏
主权项 一种用于安全产业链的智能垂直搜索装置,其特征在于,包括爬行器引擎即搜索器引擎:爬行器引擎用来控制整个系统的数据处理流程,并进行事务处理的触发;调度:调度程序从爬行器引擎接收请求并排序列入队列,并在爬行器引擎发出请求后返还给调度程序;下载器:下载器抓取网页并将网页内容返还给蜘蛛;蜘蛛:蜘蛛是爬行器用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛能处理一个域名或一组域名,即用来定义特定网站的抓取和解析规则;搜索因子库:包括标准因子库、权重因子库和域库:标准因子库记载药和器械的数据,也就是第一搜索对象,域库:负责权威认证的互联网范围;项目管道:项目管道负责处理蜘蛛从网页中抽取的项目,验证和存储数据,当页面被蜘蛛解析后,将被发送到项目管道;项目管道通常执行的过程有:清洗HTML数据,验证解析到的数据即检查项目是否包含必要的字段,检查是否是重复数据如果重复就删除,将解析到的数据存储到数据库中;下载器中间件:下载中间件是位于爬行器引擎和下载器之间的钩子框架,负责处理爬行器引擎与下载器之间的请求及响应;蜘蛛中间件:蜘蛛中间件是介于爬行器引擎和蜘蛛之间的钩子框架,负责处理蜘蛛的响应输入和请求输出;提供一个自定义代码的方式来拓展爬行器的功能;调度中间件:调度中间件是介于爬行器引擎和调度之间的中间件,负责处理从爬行器引擎发送到调度的请求和响应,并提供了一个自定义的代码来拓展爬行器的功能。
地址 214000 江苏省无锡市锡山经济开发区芙蓉中三路99号瑞云5座502室