发明名称 一种基于指导的文本特征加权方法
摘要 一种基于指导的文本特征加权方法,进行文本特征提取后得到a,b,c,d四类文档数,分别代表如下:a表示含词项t且属于正例的文档数;b表示不含词项t但属于正例的文档数;c表示含词项t但不属于正例的文档数;d表示不含词项t且不属于正例的文档数;a,b,c,d的总和为N,即总文档数;所述文本特征加权公式(1)。本发明提出的一种基于指导的文本特征加权方法tf.ridf,实现了词在总体文档及各类别文档之间的综合考虑,该方法有效地提高了分类性能。
申请公布号 CN102662976A 申请公布日期 2012.09.12
申请号 CN201210063879.5 申请日期 2012.03.12
申请人 浙江工业大学 发明人 刘端阳;陆洋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;王利强
主权项 一种基于指导的文本特征加权方法,其特征在于:进行文本特征提取后得到a,b,c,d四类文档数,分别代表如下:a表示含词项t且属于正例的文档数;b表示不含词项t但属于正例的文档数;c表示含词项t但不属于正例的文档数;d表示不含词项t且不属于正例的文档数;a,b,c,d的总和为N,即总文档数;所述文本特征加权公式如下: <mrow> <mi>ridf</mi> <mo>=</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mi>a</mi> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mi>K</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>其中K表示为: <mrow> <mi>K</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <msup> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <mrow> <mi>a</mi> <mo>+</mo> <mi>c</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mfrac> <mrow> <mi>a</mi> <mo>-</mo> <mi>c</mi> </mrow> <mrow> <mo>|</mo> <mi>a</mi> <mo>-</mo> <mi>c</mi> <mo>|</mo> </mrow> </mfrac> </msup> </mtd> <mtd> <mrow> <mo>(</mo> <mi>a</mi> <mo>&NotEqual;</mo> <mi>c</mi> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mfrac> <mi>N</mi> <mrow> <mi>a</mi> <mo>+</mo> <mi>c</mi> </mrow> </mfrac> </mtd> <mtd> <mrow> <mo>(</mo> <mi>a</mi> <mo>=</mo> <mi>c</mi> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>其中,ridf为相关反文档频率加权方法,与词频结合进行特征加权,该公式表示了一个文本在总体文本之间以及各个类别文本之间的重要程度。
地址 310014 浙江省杭州市下城区朝晖六区