发明名称 文本分类方法和装置
摘要 本发明公开了一种文本分类方法和装置。该方法包括:根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;对所述训练集文本向量进行训练,得出文本分类器;根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。本发明提供的文本分类方法和装置的技术方案中,通过特征词对来构建文本向量,丰富了文本向量中携带的信息量,从而能够有效提高文本分类的准确率和召回率。
申请公布号 CN104978354A 申请公布日期 2015.10.14
申请号 CN201410143815.5 申请日期 2014.04.10
申请人 中电长城网际系统应用有限公司 发明人 黄凯峰;林宝晶;郭春
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天昊联合知识产权代理有限公司 11112 代理人 彭瑞欣;张天舒
主权项 一种文本分类方法,其特征在于,包括:根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;对所述训练集文本向量进行训练,得出文本分类器;根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
地址 102200 北京市昌平区科技园区超前路37号6号楼四层1108号