发明名称 |
一种网页信息探测方法及系统 |
摘要 |
本发明公开了一种网页信息探测方法及系统。本发明预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。本发明能够提高网页信息探测的准确率。 |
申请公布号 |
CN102541937A |
申请公布日期 |
2012.07.04 |
申请号 |
CN201010618403.4 |
申请日期 |
2010.12.22 |
申请人 |
北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
发明人 |
王松;梁汝峰;张丹;孙红娥;杨建武;吴新丽 |
分类号 |
G06F17/30(2006.01)I;G06F21/00(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天悦专利代理事务所(普通合伙) 11311 |
代理人 |
田明;任晓航 |
主权项 |
一种网页信息探测方法,其特征在于:所述方法预先抽取网页信息的关键词,将从该网页信息中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在。 |
地址 |
100871 北京市海淀区成府路298号方正大厦 |