发明名称 | 基于WordNet以及潜在语义分析的文本分类方法 | ||
摘要 | 基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。 | ||
申请公布号 | CN105045913A | 申请公布日期 | 2015.11.11 |
申请号 | CN201510502389.4 | 申请日期 | 2015.08.14 |
申请人 | 北京工业大学 | 发明人 | 赵旭;李建强;刘璐;许泽文;莫豪文 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京思海天达知识产权代理有限公司 11203 | 代理人 | 刘萍 |
主权项 | 基于WordNet以及潜在语义分析的文本分类方法,包括:文本预处理;特征提取;训练SVM分类器。其特征在于:在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500‑1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果F1‑measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵;F1‑measure用于评价分类器效果,F1‑measure=2rp/(r+p),其中r为查全率,p为查准率;训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。 | ||
地址 | 100124 北京市朝阳区平乐园100号 |