一种词汇分类的方法、系统和实现方法,申请号CN201110456676.8-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种词汇分类的方法、系统和实现方法
摘要	本发明公开了一种词汇分类的方法、系统和实现方法，首先获取文档分类训练集，包括文档及其所属的文档类别信息，对所有文档进行预处理，形成待分类词汇，获取每个待分类词汇在一个文档类别中的TF值和IDF值，并对两者求和得到TF-IDF，除以每个待分类词汇在其文档所属的所有文档类别中的TF-IDF之和，获得的商值作为待分类词汇属于文档类别的概率，生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。采用了本发明的技术方案，能够自动完成词汇分类，而且投入很少，效果更加准确。
申请公布号	CN103186612B	申请公布日期	2016.04.27
申请号	CN201110456676.8	申请日期	2011.12.30
申请人	中国移动通信集团公司	发明人	徐萌;何洪凌;邓超;罗治国;孙少陵;陶涛
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京中誉威圣知识产权代理有限公司 11279	代理人	郭振兴;彭晓玲
主权项	一种词汇分类的方法，其特征在于，包括以下步骤：获取文档分类训练集，所述文档分类训练集包括文档和所述文档所属的文档类别信息；对所有文档进行预处理，形成待分类词汇；获取每个待分类词汇在一个文档类别中的词汇频率值TF；获取每个待分类词汇在一个文档类别中的逆文档频率值IDF；采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率‑逆文档频率值TF‑IDF；获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率‑逆文档频率值TF‑IDF之和；每个待分类词汇在一个文档类别中的词汇频率‑逆文档频率值TF‑IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率‑逆文档频率值TF‑IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率；所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别，生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
地址	100032 北京市西城区金融大街29号

您可能感兴趣的专利

ANTENNA SYSTEM FOR A COMMUNICATION DEVICE

Expanding module for serial transmission

Method for setting a termination voltage and an input circuit

Method and apparatus for measuring a fluid level and a motor vehicle provided with such apparatus

Preparation of ZnS particles doped with copper

Conduction cooled passively-shielded MRI magnet

Tubing connector

Steering assembly

Hoist method and apparatus

Thermostatic valve for a fluid circulation circuit and a heat engine associated with a cooling circuit comprising such a valve

Pneumatic nailer

Cup holding device

Display board for tablet dispensers

Method and device for measuring a mass flow

Tool, apparatus, and method for welding workpieces

Triangular carton, blank, and method

Potentiometric, ion-selective electrode

TRANSPARENT WINDOW STRUCTURE FOR MULTIPLE SOCKET

Filling and circulating apparatus for subsurface exploration

Magnetic actuator and method