发明名称 |
一种用于确定页面中的垃圾文本信息的方法与设备 |
摘要 |
本发明的目的是提供一种用于确定页面中的垃圾文本信息的方法与设备。具体地,获取待处理的初始页面;确定初始页面所对应的一个或多个候选垃圾文本信息;确定候选垃圾文本信息所对应的作弊度信息;根据作弊度信息,从一个或多个候选垃圾文本信息中确定初始页面所对应的一个或多个垃圾文本信息。其中,与现有技术相比,本发明通过确定初始页面所对应的候选垃圾文本信息的作弊度信息,以根据作弊度信息,从候选垃圾文本信息中确定初始页面所对应的垃圾文本信息,实现了根据作弊度信息对候选垃圾文本信息进行筛选,有效地识别出初始页面中的垃圾文本信息,不仅提高了用户获取信息的安全性及获取信息的效率,相应地,也提升了用户搜索浏览体验。 |
申请公布号 |
CN103886016A |
申请公布日期 |
2014.06.25 |
申请号 |
CN201410058591.8 |
申请日期 |
2014.02.20 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
施鹏;牛章鹏 |
分类号 |
G06F17/30(2006.01)I;G06F21/60(2013.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京汉昊知识产权代理事务所(普通合伙) 11370 |
代理人 |
罗朋;周建华 |
主权项 |
一种用于确定页面中的垃圾文本信息的方法,其中,该方法包括以下步骤:a获取待处理的初始页面;b确定所述初始页面所对应的一个或多个候选垃圾文本信息;c确定所述候选垃圾文本信息所对应的作弊度信息;d根据所述作弊度信息,从所述一个或多个候选垃圾文本信息中确定所述初始页面所对应的一个或多个垃圾文本信息。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |