发明名称 一种多模型融合的短文本分类方法
摘要 本发明公开了一种多模型融合的短文本分类方法,包括学方法和分类方法两部分;学方法的步骤包括:对短文本训练数据进行分词、过滤,得到单词集合;计算每个单词的IDF值;计算所有单词的TFIDF值,构建文本向量VSM;基于向量空间模型进行文本学,构建出本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型。分类方法的步骤包括:对待分类短文本进行分词、过滤;基于向量空间模型生成文本向量;分别应用本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型进行分类,得到单一模型分类结果;对单一模型分类结果进行融合,得到最终分类结果。本发明方法融合了多种分类模型,提高了短文本分类准确率。
申请公布号 CN105468713A 申请公布日期 2016.04.06
申请号 CN201510808282.2 申请日期 2015.11.19
申请人 西安交通大学 发明人 鲍军鹏;蒋立华;袁瑞玉;骆玉忠
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 徐文权
主权项 一种多模型融合的短文本分类方法,其特征在于,包括学习方法和分类方法两部分;1)、学习方法包括以下步骤:(11)对短文本训练数据进行分词、过滤,得到单词集合;(12)计算单词集合中每个单词的IDF值;(13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;(14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文本向量构建出支持向量机模型;2)、分类方法包括以下步骤:(21)对待分类文本进行分词、过滤;(22)每一个待分类文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;(23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;(24)对上述4种单一模型分类结果进行融合,得到最终分类结果。
地址 710049 陕西省西安市碑林区咸宁西路28号