发明名称 一种对文本进行分类的方法及装置
摘要 本发明公开了一种对文本进行分类的方法及装置,所述方法包括:构建一个类别空间,该类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。应用本发明,可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。
申请公布号 CN102214233B 申请公布日期 2013.04.10
申请号 CN201110177822.3 申请日期 2011.06.28
申请人 东软集团股份有限公司 发明人 赵大哲;栗伟;杨金柱;覃文军;李博
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 马敬;逯长明
主权项 1.一种对文本进行分类的方法,其特征在于,包括:构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:1)计算词项t<sub>k</sub>在类别C<sub>m</sub>中的频率TCF<sub>km</sub>TCF<sub>km</sub>=γ<sub>m</sub>tcf(t<sub>k</sub>,C<sub>m</sub>)其中tcf(t<sub>k</sub>,C<sub>m</sub>)为词项t<sub>k</sub>在文本类别C<sub>m</sub>中出现的次数,γ<sub>m</sub>为权值,通常取1或<img file="FDA00002702493000011.GIF" wi="302" he="195" />t<sub>k</sub>表示词项,k∈{1,…,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={C<sub>m</sub>},m∈{1,…,M},文本类别总数为M;2)计算词项t<sub>k</sub>的类别频率CF<sub>k</sub>,CF<sub>k</sub>=包含词项t<sub>k</sub>的类别数量,其中,CF<sub>k</sub>记作cf<sub>k</sub>;3)计算词项t<sub>k</sub>的逆向类别频率ICF<sub>k</sub><maths num="0001"><![CDATA[<math><mrow><msub><mi>ICF</mi><mi>k</mi></msub><mo>=</mo><msub><mi>log</mi><mn>2</mn></msub><mfrac><mi>M</mi><msub><mi>cf</mi><mi>k</mi></msub></mfrac></mrow></math>]]></maths>4)计算词项t<sub>k</sub>在类别C<sub>m</sub>中的权重w<sub>km</sub><maths num="0002"><![CDATA[<math><mrow><msub><mi>w</mi><mi>km</mi></msub><mo>=</mo><msub><mi>TCF</mi><mi>km</mi></msub><mo>&times;</mo><msub><mi>ICF</mi><mi>k</mi></msub><mo>=</mo><msub><mi>&gamma;</mi><mi>m</mi></msub><mi>tcf</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>,</mo><msub><mi>C</mi><mi>m</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mfrac><mi>M</mi><msub><mi>cf</mi><mi>k</mi></msub></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>5)计算训练文本集所有词项在所述类别空间中的表示向量<maths num="0003"><![CDATA[<math><mrow><msub><mi>t</mi><mi>k</mi></msub><mo>=</mo><mrow><mo>(</mo><msubsup><mi>w</mi><mrow><mi>k</mi><mn>1</mn></mrow><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>w</mi><mrow><mi>k</mi><mn>2</mn></mrow><mo>&prime;</mo></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>w</mi><mi>kM</mi><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mfrac><msub><mi>w</mi><mrow><mi>k</mi><mn>1</mn></mrow></msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msubsup><mi>w</mi><mi>km</mi><mn>2</mn></msubsup></msqrt></mfrac><mo>,</mo><mfrac><msub><mi>w</mi><mrow><mi>k</mi><mn>2</mn></mrow></msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msubsup><mi>w</mi><mi>km</mi><mn>2</mn></msubsup></msqrt></mfrac><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mfrac><msub><mi>w</mi><mi>kM</mi></msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msubsup><mi>w</mi><mi>km</mi><mn>2</mn></msubsup></msqrt></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>其中,w′<sub>k1</sub>,w′<sub>k2</sub>,...,w′<sub>kM</sub>分别代表w<sub>k1</sub>,w<sub>k2</sub>,...,w<sub>kM</sub>经过向量归一化处理后的权重值。
地址 110179 辽宁省沈阳市浑南新区新秀街2号