发明名称 一种基于特征项选择与权重计算的文本分类方法
摘要 本发明公开了一种基于特征项选择及权重计算的文本分类方法,对分析整理得到的语料训练集,在传统的TF-IDF特征项权重计算基础上,根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。再根据特征项类间权重差对特征项进行评估、选择。将训练集文本与待分类文本分别以特征子空间中的特征项表示成向量的形式。计算待分类文本和训练集文本之间的相似度,来确定待分类文本的类别。由于在特征项选择及权重计算过程中,在TF-IDF基础上综合考虑了特征项在类间类内的分布情况,提高了特征项选择的准确度,有效降低特征项维数,从而提高文本分类的效率和精度。
申请公布号 CN102930063B 申请公布日期 2015.06.24
申请号 CN201210516057.8 申请日期 2012.12.05
申请人 电子科技大学 发明人 孙健;梁雪芬;艾丽丽;隆克平;徐杰;王晓丽;张毅;姚洪哲;李乾坤;陈小英;陈旭
分类号 G06F17/30(2006.01)I;G06F17/21(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都行之专利代理事务所(普通合伙) 51220 代理人 温利平
主权项 一种基于特征项选择及权重计算的文本分类方法,包括以下步骤:(1)、收集不同类别文本,分析整理后按类别归入语料训练集;(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数;(3)、利用改进TF‑IDF函数计算各文本特征项权重,改进TF‑IDF函数公式为:w(t<sub>k</sub>,T<sub>j</sub>)=tf(t<sub>k</sub>,T<sub>j</sub>)×idf(t<sub>k</sub>)×χ<sup>2</sup>(t<sub>k</sub>,C<sub>i</sub>)×H(t<sub>k</sub>,C<sub>i</sub>)其中:w(t<sub>k</sub>,T<sub>j</sub>)表示文本T<sub>j</sub>中特征项t<sub>k</sub>的权重值;tf(t<sub>k</sub>,T<sub>j</sub>)表示特征项t<sub>k</sub>在文本T<sub>j</sub>中的词频数;<img file="FDA0000633690680000011.GIF" wi="553" he="147" />表示特征项t<sub>k</sub>的逆文本频率,其中N表示语料训练集中文本总数,N<sub>k</sub>表示训练集中包含特征项t<sub>k</sub>的文本数;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>&chi;</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>N</mi><msup><mrow><mo>(</mo><mi>AD</mi><mo>-</mo><mi>BC</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mrow><mo>(</mo><mi>A</mi><mo>+</mo><mi>C</mi><mo>)</mo></mrow><mrow><mo>(</mo><mi>B</mi><mo>+</mo><mi>D</mi><mo>)</mo></mrow><mrow><mo>(</mo><mi>A</mi><mo>+</mo><mi>B</mi><mo>)</mo></mrow><mrow><mo>(</mo><mi>C</mi><mo>+</mo><mi>D</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000633690680000012.GIF" wi="923" he="151" /></maths>表示特征项t<sub>k</sub>与类别C<sub>i</sub>之间的相关度,其中A为包含特征项t<sub>k</sub>且属于类别C<sub>i</sub>的文本数,B为包含特征项t<sub>k</sub>但不属于类别C<sub>i</sub>的文本数,C为不包含特征项t<sub>k</sub>但属于类别C<sub>i</sub>的文本数,D为不包含特征项t<sub>k</sub>也不属于类别C<sub>i</sub>的文本数,N表示语料训练集中文本总数;<img file="FDA0000633690680000013.GIF" wi="831" he="157" />表示特征项t<sub>k</sub>在类别C<sub>i</sub>内的分布信息熵,其中<img file="FDA0000633690680000014.GIF" wi="414" he="149" />表示类别C<sub>i</sub>内特征项t<sub>k</sub>在文本T<sub>j</sub>中的分布概率,tf(t<sub>k</sub>,T<sub>j</sub>)表示特征项t<sub>k</sub>在文本T<sub>j</sub>中的词频数,<img file="FDA0000633690680000015.GIF" wi="472" he="146" />表示类别C<sub>i</sub>内特征项t<sub>k</sub>的总词频,n表示类别C<sub>i</sub>的文本总数;(4)、计算特征项类间差,评估特征项,特征项评估函数公式为:Q(t<sub>k</sub>)=Max(w(t<sub>k</sub>,C<sub>i</sub>))‑lessMax(w(t<sub>k</sub>,C<sub>i</sub>))(i=1...S)其中,Q(t<sub>k</sub>)表示特征项类间权重最大值与次大值之差,S表示语料训练集中文本分为S个类别,<img file="FDA0000633690680000021.GIF" wi="458" he="144" />是类别C<sub>i</sub>中所有n篇文本中特征项t<sub>k</sub>的权重之和,Max(w(t<sub>k</sub>,C<sub>i</sub>))与lessMax(w(t<sub>k</sub>,C<sub>i</sub>))分别求出S个w(t<sub>k</sub>,C<sub>i</sub>)中的最大值和次大值;根据实际需要设置特征项评估差值的阈值P,若Q(t<sub>k</sub>)≥P,则将特征项t<sub>k</sub>加入特征子空间;若Q(t<sub>k</sub>)&lt;P,将此特征项t<sub>k</sub>舍弃,完成对文本特征空间的降维操作,形成特征子空间;(5)、构建分类器,将语料训练集文本表示为向量形式T<sub>j</sub>(ω<sub>j1</sub>,ω<sub>j2</sub>,ω<sub>jk</sub>…,ω<sub>jm</sub>),其中ω<sub>jk</sub>为文本T<sub>j</sub>中特征子空间包含的特征项t<sub>k</sub>的权重,m表示特征子空间包含的特征项个数;对待分类文本T<sub>i</sub>进行分词、去除停用词处理,统计特征子空间中所有特征项在文本T<sub>i</sub>中的词频,采用改进TF‑IDF函数计算各特征项权重,将T<sub>i</sub>也表示成向量的形式:T<sub>i</sub>(ω<sub>i1</sub>,ω<sub>i2</sub>,ω<sub>ik</sub>…,ω<sub>im</sub>);计算T<sub>i</sub>(ω<sub>i1</sub>,ω<sub>i2</sub>,ω<sub>ik</sub>…,ω<sub>im</sub>)与所有T<sub>j</sub>(ω<sub>j1</sub>,ω<sub>j2</sub>,ω<sub>jk</sub>…,ω<sub>jm</sub>)的夹角余弦值,当夹角余弦值最大,说明文本T<sub>i</sub>与文本T<sub>j</sub>的相似度最大,则将文本T<sub>i</sub>归入该文本T<sub>j</sub>所属的类别中。
地址 611731 四川省成都市高新区(西区)西源大道2006号
您可能感兴趣的专利