发明名称 一种基于动态知识的深层网页数据获取方法
摘要 本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。
申请公布号 CN102682119B 申请公布日期 2014.03.05
申请号 CN201210150789.X 申请日期 2012.05.16
申请人 崔志明;鲜学丰;赵朋朋;杨元峰 发明人 崔志明;鲜学丰;赵朋朋;杨元峰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人 史霞
主权项 一种基于动态知识的深层网页数据获取方法,其特征在于,对同一领域的多个数据源进行数据获取,其中,对所述多个数据源中的一个数据源进行数据获取,是通过以下过程实现的,包括以下步骤:步骤一、为当前数据源预设n个查询关键词,从n个查询关键词中选择第一个查询关键词,根据该查询关键词在当前数据源上进行第一次数据获取,所述数据获取过程为:在当前数据源上执行,从当前数据源下载与当前查询关键词匹配的数据记录;步骤二、重复步骤一,且当重复步骤一的次数达到rK次之后,其中rK<n,r为大于等于1的整数,在根据第rK+1个查询关键词在当前数据源上获得第rK+1个查询关键词匹配的数据记录之后,再从已经下载的数据记录中提取z个新的查询关键词,使得当前数据源对应的查询关键词的个数为n+z个。
地址 215000 江苏省苏州市工业园区东港新村37栋403室