发明名称 基于帖子的出现规律来检测垃圾帖子的方法及设备
摘要 本发明提供一种用于基于帖子在检测社区网络中出现规律来检测垃圾帖子的方法和设备。该方法包括:a.对帖子进行识别,根据其内容特征及在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。优选地,步骤a包括:a1.根据预定语义规则对该帖子进行识别,提取其中的内容特征;a2.根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;a3.基于第一预定规律根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。现有技术通常孤立地对单个帖子的内容进行脏词匹配或者语义分析所造成的无法检测出在社区网络中存在大量重复帖子的情形,与之相比本发明提高了对垃圾帖子的判断准确度。
申请公布号 CN102315953B 申请公布日期 2016.08.03
申请号 CN201010214189.6 申请日期 2010.06.29
申请人 百度在线网络技术(北京)有限公司 发明人 舒迅;帅帅;尹佳;王波;罗亮
分类号 H04L12/24(2006.01)I;H04L12/26(2006.01)I;H04L29/06(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L12/24(2006.01)I
代理机构 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人 罗朋
主权项 一种用于检测社区网络中垃圾帖子的方法,其中,该方法包括:a.对帖子进行检测,根据该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子,其中,包括:a1.根据预定语义规则对该帖子进行识别,提取其中的内容特征;a2.根据所述帖子的内容特征来查询该帖子在社区网络中的出现规律;a3.基于第一预定规则根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子;其中,所述出现规律包括以下各项中的至少任一项:‑与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现频率;‑与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现次数或重复程度。
地址 100085 北京市海淀区上地十街10号百度大厦