发明名称 |
一种基于高频字图模型的Deep Web数据爬取方法 |
摘要 |
本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。 |
申请公布号 |
CN102289502A |
申请公布日期 |
2011.12.21 |
申请号 |
CN201110246903.4 |
申请日期 |
2011.08.25 |
申请人 |
山东英佰德信息科技有限公司 |
发明人 |
禹晓辉;闫中敏;彭朝晖 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
济南圣达知识产权代理有限公司 37221 |
代理人 |
张勇 |
主权项 |
一种基于高频字图模型的Deep Web数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:使用采样数据库和汉字频度表作为输入,统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:根据查询关键字,查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为Deep Web动态页面;步骤5:获取相应的Deep Web页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7,否则对每一个候选汉字统计属性高频字覆盖率图模型中已提交字的覆盖率之和,其值最小的为最佳查询汉字,然后继续执行步骤3‑5获取最佳查询汉字提交之后返回的查询结果,再转入步骤6选择下一个查询关键字;步骤7:估算在Web数据库中匹配每一个候选汉字的所有记录数,从而获得估算的新数据获取率,选择新数据获取率最高的一个汉字用作查询关键字,继续执行步骤3‑5获取该查询关键字提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。 |
地址 |
250101 山东省济南市高新区颖秀路山大科技园内 |