发明名称 一种基于TF<sup>*</sup>IDF算法的统计学文本分类系统及方法
摘要 本发明涉及一种基于TF*IDF算法的统计学文本分类方法,该方法提出了一种新的特征向量权重方法(TF*IDF*CIV),在TF*IDF方法中引入了概念信息量(CIV)这一变量,把特征向量的概念信息量作为一个变量考虑在特征向量权重的计算过程中,该算法的公式为:<img file="dda0000046367550000011.GIF" wi="662" he="119" />其中的共享概念数sim(c<sub>i</sub>,C)为特征项t<sub>i</sub>所对应的概念集合c<sub>i</sub>在类别概念集合C中匹配相等的概念数目;弥补了TF*IDF方法的不足现阶段TF*IDF方法被广泛的用来计算特征向量的权重。但是这种方法无法表示出特征项之间的关联性,忽略了特征项语义之间的关联性对权重的影响。由此,实验证明新方法的采用可以有效提高整个文本分类系统的准确率。
申请公布号 CN102622373A 申请公布日期 2012.08.01
申请号 CN201110033808.6 申请日期 2011.01.31
申请人 中国科学院声学研究所 发明人 缪建明;丁泽亚;张全
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 高宇;杨小蓉
主权项 一种基于TF*IDF算法的统计学文本分类方法,所述的方法包含如下步骤:1)收集语料,将收集的语料分为训练语料和测试语料;2)对训练语料进行分类和预处理;3)从训练语料中提取出每个领域的词表,同时提取出总词表;4)对训练语料的类别所属概念进行归纳,利用概念词典提取各类别的所属概念集合,形成类别概念集合库C,该概念集合库C用于计算概念信息量CIV;5)对测试语料进行特征选取,得到不同数目的特征向量表;6)使用特征向量权重算法(TF*IDF*CIV)计算特征向量表包含的特征向量词的权重,具体计算公式如下: <mrow> <mrow> <msub> <mi>W</mi> <mi>ij</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mi>ij</mi> </msub> <mo>&times;</mo> <mi>log</mi> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <mo>&times;</mo> <mo>[</mo> <mi>sim</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>]</mo> </mrow> <mo>;</mo> </mrow>其中,sim(ci,C)+1为概念信息参量CIV,且该式中的共享概念数sim(ci,C)为步骤5)所述的特征向量表的任意一个特征向量ti所对应的概念集合ci在所述步骤4)所述的类别概念集合C中匹配相等的概念数目;7)构造相应的文本分类器,利用分类器对测试语料进行计算,得到分类结果;8)采用评价函数计算各种分类器的性能评价参数,根据分类器评价参数结果确定最优的特征向量表。
地址 100190 北京市海淀区北四环西路21号