发明名称 一种网页识别方法、装置及系统
摘要 本发明适用于计算机技术领域,提供了一种网页识别方法、装置及系统,所述方法包括下述步骤:获取输入网页的页面信息;在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息。本发明通过预先构建的分析器对页面信息进行分析,输出该网页是否为欺诈网页的信息,解决了由于现有技术采用网页匹配的方法来识别欺诈网页,导致欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而增强了网络的安全性。
申请公布号 CN102592067B 申请公布日期 2014.07.30
申请号 CN201110009183.X 申请日期 2011.01.17
申请人 腾讯科技(深圳)有限公司 发明人 孙炜;冯庆磊;黄利华;刘松
分类号 H04L29/06(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 深圳中一专利商标事务所 44237 代理人 张全文
主权项 一种网页识别方法,其特征在于,所述方法包括下述步骤:获取输入网页的页面信息;在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息,所述分析器为文本分类器或盗链分析器;当所述分析器为文本分类器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:从页面信息中获取输入网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条;根据输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率;当输入网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;当输入网页属于欺诈网页类的概率不大于预设值时,所述链接网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;当所述分析器为盗链分析器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:在预先收集的合法网页信息中检索输入网页的信息;当未检索到输入网页的信息时,获取输入网页包含合法超链接的数目,计算所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目;当输入网页包含合法超链接的数目、所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室