发明名称 一种自适应增量式的深层网络数据源发现方法
摘要 本发明公开了一种自适应增量式的深网数据源发现方法,将深层网络数据源发现过程分为站点定位和站内搜索两个阶段,在站点定位阶段引进站点发现机制可以高效扩充站点数据以提高爬行效率;在站点和站内链接选取采用自适应的排序机制,能够更快的发现深层网络站点和可查询表单。本方法实现了增量自动高效采集深网数据源,可用于深层网络数据集成和暗网爬虫,同时也适用于构建在线数据库目录站点。
申请公布号 CN103714149A 申请公布日期 2014.04.09
申请号 CN201310733599.5 申请日期 2013.12.26
申请人 华中科技大学 发明人 赵峰;金海;聂昶;陈恒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 朱仁玲
主权项 一种自适应增量式的深层网络数据源发现方法,包括站点定位和站内搜索两个阶段,其中,所述站点定位阶段包括站点收集、站点排序和站点分类,所述站内搜索阶段包括页面抓取、链接选取和表单分类,所述站点收集用于发现新的站点,保证爬行过程中站点队列中有充足的站点链接供选取;所述站点排序用于给站点评分并选取相关度最高的站点链接;所述站点分类用于判断站点是否领域相关;所述页面抓取用于按照宽度优先策略访问到指定深度,其中,在每层爬行过程中,从存储当前深度的链接的工作队列中抽取链接,把页面中站内链接抽取到候选队列中用于下一个深度的爬取,将外部站点链接存储到站点数据库和站点队列中;所述链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序;所述表单分类用于通过通用表单分类器和领域表单分类器判定表单是否为领域相关的查询表单,从而对表单进行过滤。
地址 430074 湖北省武汉市洪山区珞喻路1037号
您可能感兴趣的专利