发明名称 一种基于术语频率和卡方统计的文本分类特征选择方法
摘要 本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:对数据集预处理;把每一个数据对象转换为特征空间的向量;分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率;根据平均术语频率计算术语在每个类中的分布差异度;将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合,计算每个术语在每个类中的权重,并取最大值为术语权重;将每个术语权重降序排序,选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进,使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现,并修正了传统卡方统计方法偏向于低频词的不足。
申请公布号 CN104346459A 申请公布日期 2015.02.11
申请号 CN201410629761.3 申请日期 2014.11.10
申请人 南京信息工程大学 发明人 马廷淮;金传鑫;侯荣涛;田伟;薛羽
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京众联专利代理有限公司 32206 代理人 顾进;叶涓涓
主权项 一种基于术语频率和卡方统计的文本分类特征选择方法,其特征在于,包括如下步骤:步骤(1),对语料库数据集进行预处理;步骤(2),对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合D={d<sub>1</sub>,d<sub>2</sub>,...d<sub>N</sub>},类标签集合C={c<sub>1</sub>,c<sub>2</sub>,...c<sub>|C|</sub>},d<sub>j</sub>表示语料库数据集中的一个文档(1≤j≤N),c<sub>k</sub>表示语料库数据集中的一个类;步骤(3),计算术语t<sub>i</sub>在文本分类c<sub>k</sub>中的最大术语频率<img file="FDA0000604644060000015.GIF" wi="151" he="78" />和平均术语频率<img file="FDA0000604644060000016.GIF" wi="62" he="83" />;步骤(4),通过下式计算术语t<sub>i</sub>在c<sub>k</sub>类中的分布差异度:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>N</mi><mi>k</mi></msub><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>k</mi></msub></munderover><msup><mrow><mo>(</mo><msub><mi>tf</mi><mi>ij</mi></msub><mo>-</mo><msub><mover><mi>tf</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>&alpha;</mi></mrow>]]></math><img file="FDA0000604644060000011.GIF" wi="876" he="214" /></maths>其中,α表示一个很小的实数;步骤(5),利用步骤(3)和步骤(4)得到的最大术语频率及分布差异度,通过下式计算该术语t<sub>i</sub>在c<sub>k</sub>类中的权重:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>ICHI</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>log</mi><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>tf</mi><msub><mi>i</mi><mi>max</mi></msub></msub><mo>)</mo></mrow><mo>&times;</mo><msup><mi>&chi;</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>V</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000604644060000012.GIF" wi="880" he="154" /></maths>其中,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msup><mi>&chi;</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>N</mi><mo>&times;</mo><msup><mrow><mo>(</mo><mi>AD</mi><mo>-</mo><mi>CB</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mrow><mo>(</mo><mi>A</mi><mo>+</mo><mi>C</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>B</mi><mo>+</mo><mi>D</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>A</mi><mo>+</mo><mi>B</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>C</mi><mo>+</mo><mi>D</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000604644060000013.GIF" wi="916" he="140" /></maths>步骤(6),计算得到该术语t<sub>i</sub>在每个类中的权重,通过下式取权重最大值为术语t<sub>i</sub>在语料库数据集中的权重:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>ICHI</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>max</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><mi>c</mi><mo>|</mo></mrow></msubsup><mo>{</mo><mi>ICHI</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>}</mo><mo>;</mo></mrow>]]></math><img file="FDA0000604644060000014.GIF" wi="824" he="122" /></maths>步骤(7),计算得到每一个术语在语料库数据集中的权重,并降序排列,选出值最大的前N个术语作为特征。
地址 210044 江苏省南京市宁六路219号