发明名称 | 一种基于网页链接参数分析的信息预测采集方法 | ||
摘要 | 本发明公开了一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:计算网页链接的参数特征统计信息,计算网页所包含外部链接的分布信息,根据网页的外部链接分布特征对网页进行分类,网页资源的抽样预测,预测样本的采集测试,网页资源的总体预测。本发明的方法,有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的覆盖率。 | ||
申请公布号 | CN104090931A | 申请公布日期 | 2014.10.08 |
申请号 | CN201410290459.X | 申请日期 | 2014.06.25 |
申请人 | 华南理工大学 | 发明人 | 董守斌;陈佳;李粤;古万荣;袁华 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 广州市华学知识产权代理有限公司 44245 | 代理人 | 蔡茂略 |
主权项 | 一种基于网页链接参数分析的信息预测采集方法,其特征在于,包括以下顺序的步骤:(1)计算网页链接的参数特征统计信息;(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;(3)根据网页的外部链接分布特征对网页进行分类;(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。 | ||
地址 | 510640 广东省广州市天河区五山路381号 |