发明名称 面向领域的暗网资源采集方法和系统
摘要 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
申请公布号 CN103116635A 申请公布日期 2013.05.22
申请号 CN201310049317.X 申请日期 2013.02.07
申请人 中国科学院计算技术研究所 发明人 熊锦华;林海伦;程学旗;张永超;廖华明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种面向领域的暗网资源采集方法,所述方法包括: 步骤1,从抓取的页面中识别与指定领域相关的页面,获取有效表单集合; 步骤2,对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单; 步骤3,输出有效的查询所返回的结果,作为采集的暗网资源。
地址 100190 北京市海淀区中关村科学院南路6号