发明名称 一种基于云计算的大数据文本分类方法
摘要 本发明公开了一种基于云计算的大数据文本分类方法,包括如下步骤:对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;对训练数据集分别进行特征选择,得到对应的降维后的训练数据集;对降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率,初始化贝叶斯分类器参数;利用EM算法优化贝叶斯分类器的参数,得到分类模型;利用分类模型对待分类的文本进行文本分类。本发明通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合,使得实际应用中计算速度限制和训练数据限制的问题得以改善,提高了分类器的效率和准确性。
申请公布号 CN104699772A 申请公布日期 2015.06.10
申请号 CN201510096820.X 申请日期 2015.03.05
申请人 孟海东 发明人 孟海东;肖银龙;宋宇辰;任敬佩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于云计算的大数据文本分类方法,其特征在于,包括如下步骤:S1、对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;S2、对步骤S1所得的训练数据集分别进行特征选择,得到对应的降维后的训练数据集;S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;S4、将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S5、利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;S6、将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S7、利用得到的先验概率,按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别;S8、重复步骤S6、S 7,直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛,得到分类模型;S9、利用分类模型对待分类的文本进行文本分类。
地址 014010 内蒙古自治区包头市昆区阿尔丁大街7号