基于WordNet以及潜在语义分析的文本分类方法,申请号CN201510502389.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于WordNet以及潜在语义分析的文本分类方法
摘要	基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。
申请公布号	CN105045913A	申请公布日期	2015.11.11
申请号	CN201510502389.4	申请日期	2015.08.14
申请人	北京工业大学	发明人	赵旭;李建强;刘璐;许泽文;莫豪文
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京思海天达知识产权代理有限公司 11203	代理人	刘萍
主权项	基于WordNet以及潜在语义分析的文本分类方法，包括：文本预处理；特征提取；训练SVM分类器。其特征在于：在文本预处理阶段，调用WordNet对文本中单词消除歧义，并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词，以相似度作为权重，增加文本中单词的同义词和上下位词的词频，得到考虑同义词和上下位词的词频矩阵；在特征提取阶段，首先过滤掉词频矩阵中词频低的单词，剩下的单词组成子集，子集维度为500‑1000之间，而后采用潜在语义分析对子集矩阵进行降维，得到特征矩阵，之后通过遗传算法根据分类结果F1‑measure的值对特征矩阵进行调整，得到分类效果最佳的特征矩阵；F1‑measure用于评价分类器效果，F1‑measure＝2rp/(r+p)，其中r为查全率，p为查准率；训练SVM分类器与预处理和特征提取构成一个整体循环，通过调整参数H和特征矩阵，得到分类效果最佳的分类器。
地址	100124 北京市朝阳区平乐园100号

您可能感兴趣的专利

电热祛痛磁疗药袋

压力介质致动的缸体-活塞组合体

Fastening arrangement for the encapsulation of the motor in a commercial vehicle.

实现多幅图象显示的特殊效果的视频处理器

Hardening composition for urea-formaldehyde glues, process for its preparation and kit comprising it.

Filled hydrolyzable copolymer compositions resistant to premature crosslinking.

Silicone rubber composition.

Process for producing styrenic polymer.

Three-dimensional refractively scanning interferometer structure having removable optical cartridge.

Low insertion/withdrawal-force connector.

ALIGNMENT FEEDER

SYNTHETIC FIBER CONSISTING OF POLYAMIDE-POLYESTER POLYMER AND METHOD OF ITS PRODUCTION

FACSIMILE EQUIPMENT

A TIMEPIECE WITH AN ECCENTRIC DISPLAY MODULE

IMPROVED CHAIN CONVEYOR

MODULATING GAS-FEEDING MECHANISM FOR A BURNER OF AN APPARATUS OF THE GAS BOILER KIND

RECTANGULAR BALER

HALOGEN LAMP FILL MIXTURE WHICH REDUCES LOWER OPERATING TEMPERATURE OF HALOGEN CYCLE

A SECURITY VESTIBULE ENTRY FOR CONTROLLED ACCESS TO BANKS AND THE LIKE

ELECTRICAL SWITCH WITH A BENT ACTUATING HANDLE