发明名称 文档分类、支持向量机模型生成的方法和装置
摘要 本发明公开了一种文档分类、支持向量机模型生成的方法和装置,所述方法包括:根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,训练集的类别扁平化处理过程包括:针对训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理,从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。
申请公布号 CN103106262A 申请公布日期 2013.05.15
申请号 CN201310033125.X 申请日期 2013.01.28
申请人 新浪网技术(中国)有限公司 发明人 戴明洋
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 黄启行;方晓明
主权项 一种文档分类方法,其特征在于,包括:对待分类文档进行分词后,确定该待分类文档的特征向量;根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
地址 100080 北京市海淀区北四环西路58号理想国际大厦20层