发明名称 基于WordNet以及潜在语义分析的文本分类方法
摘要 基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。
申请公布号 CN105045913A 申请公布日期 2015.11.11
申请号 CN201510502389.4 申请日期 2015.08.14
申请人 北京工业大学 发明人 赵旭;李建强;刘璐;许泽文;莫豪文
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 刘萍
主权项 基于WordNet以及潜在语义分析的文本分类方法,包括:文本预处理;特征提取;训练SVM分类器。其特征在于:在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500‑1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果F1‑measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵;F1‑measure用于评价分类器效果,F1‑measure=2rp/(r+p),其中r为查全率,p为查准率;训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。
地址 100124 北京市朝阳区平乐园100号