发明名称 一种基于网页链接参数分析的信息预测采集方法
摘要 本发明公开了一种基于网页链接参数分析的信息预测采集方法,包括以下顺序的步骤:计算网页链接的参数特征统计信息,计算网页所包含外部链接的分布信息,根据网页的外部链接分布特征对网页进行分类,网页资源的抽样预测,预测样本的采集测试,网页资源的总体预测。本发明的方法,有效地补充了传统采集信息方式的不足,扩展了待采集链接资源的数量,利用已知的网页资源特征预测到了大量未采集的网页资源,提高了采集网页信息的覆盖率。
申请公布号 CN104090931A 申请公布日期 2014.10.08
申请号 CN201410290459.X 申请日期 2014.06.25
申请人 华南理工大学 发明人 董守斌;陈佳;李粤;古万荣;袁华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 一种基于网页链接参数分析的信息预测采集方法,其特征在于,包括以下顺序的步骤:(1)计算网页链接的参数特征统计信息;(2)计算网页所包含外部链接的分布信息,为网页分类提供特征并作为识别的依据;(3)根据网页的外部链接分布特征对网页进行分类;(4)利用网页链接的分类结果和参数统计信息进行网页资源的抽样预测,产生一个测试所预测网页资源的小样本;(5)对抽样得到的预测样本进行采集测试,筛选出采集成功率达到自定义阈值的网页链接集合,舍弃不符合条件的部分网页链接;(6)网页资源的总体预测:利用抽样测试的结果和网页链接的参数特征统计信息,用于预测大量有效的网页链接集合。
地址 510640 广东省广州市天河区五山路381号