发明名称 | 用于识别论坛用户马甲账号的方法和系统 | ||
摘要 | 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。 | ||
申请公布号 | CN103729474A | 申请公布日期 | 2014.04.16 |
申请号 | CN201410032746.0 | 申请日期 | 2014.01.23 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 许洪波;樊茜;梁英;程学旗;张国清 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京泛华伟业知识产权代理有限公司 11280 | 代理人 | 王勇 |
主权项 | 一种用于识别论坛用户马甲账号的方法,所述方法包括:步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;步骤3,基于所述分类结果来识别马甲账号。 | ||
地址 | 100190 北京市海淀区中关村科学院南路6号 |