发明名称 一种垃圾内容识别方法及装置
摘要 本申请实施例提供一种垃圾内容识别方法及装置,包括:在接收到待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。
申请公布号 CN103389995A 申请公布日期 2013.11.13
申请号 CN201210144007.1 申请日期 2012.05.10
申请人 阿里巴巴集团控股有限公司 发明人 王帅
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭润湘
主权项 一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱