发明名称 一种网页信息探测方法及系统
摘要 本发明公开了一种网页信息探测方法及系统。本发明预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。本发明能够提高网页信息探测的准确率。
申请公布号 CN102541937A 申请公布日期 2012.07.04
申请号 CN201010618403.4 申请日期 2010.12.22
申请人 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 发明人 王松;梁汝峰;张丹;孙红娥;杨建武;吴新丽
分类号 G06F17/30(2006.01)I;G06F21/00(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天悦专利代理事务所(普通合伙) 11311 代理人 田明;任晓航
主权项 一种网页信息探测方法,其特征在于:所述方法预先抽取网页信息的关键词,将从该网页信息中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在。
地址 100871 北京市海淀区成府路298号方正大厦