发明名称 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
摘要 本发明公开了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置,根据特征词在文本文档内的词频和在不同文本类别上分布的信息熵来计算文档内各特征词的权重;同时可根据文本集各类别规模的非平衡性采用不同方式来计算特征词的类间分布熵,另外根据各特征词在文本集中的分布特点按需引入了反文档频率,而且适当缩减了局部词频因子,使得文档内各特征词的权重分配更合理,所生成的文档特征向量更充分地反映了不同类别文本的特征差异。所公开的文本特征量化装置和文本分类装置具备多个选项或参数,通过调节可获得最优的文本分类效果。所述文本特征量化方法不仅提高了文本分类的准确率,而且在不同文本集上的性能比较稳定。
申请公布号 CN105224695A 申请公布日期 2016.01.06
申请号 CN201510770947.5 申请日期 2015.11.12
申请人 中南大学 发明人 陈科文;张祖平;龙军;胡扬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 长沙市融智专利事务所 43114 代理人 龚燕妮
主权项 一种用于文本分类的文本特征量化方法,其特征在于,包括以下步骤:步骤1:将已分类的训练文本集和待分类的文本集进行预处理;所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;所述文档是指被分类的文本数据单元;内容为文本数据的文档称为文本文档;所述文本集是指文本数据集,由相同或不同类别的文本文档组成的;所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签;所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词,将英文字母转换为小写、提取英文单词的词根;步骤2:从预处理后的训练集中提取不同的特征词,构建由不同的特征词组成的初始词表,并且统计训练集中的每个文本类别的文档数目、每个特征词的类别文档频率;所述特征词是指文本中的各个单独的词汇或其它不包含空格或标点符号的连续字符串,每个特征词代表文本的一个特征或属性;所述特征词的类别文档频率是指包含该特征词且属于某个文本类别的训练文档数目;同时,统计训练集与待分类的文本集中每个文档包含的每个特征词的词频;所述每个文档包括训练文档和待分类文档,所述词频是指某特征词在一篇文档中的出现频次;步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的特征词作为文本的特征或属性,构建新的特征词表;待分类的文本集和训练集使用相同的特征词表;所述特征选择指标包括卡方统计量或信息增益;所述筛选方法是先计算每个特征词的特征选择指标,将所有特征词的特征选择指标计算值按照从大到小排序,选择排列在前面的200~9000个特征词作为文本的特征或属性;步骤4:用TF‑ENT方法计算每个特征词在文档中的权重;所述TF‑ENT方法是指根据特征词在文档中的词频和在训练集的所有不同文本类别上分布的信息熵来计算特征词权重的方法;根据所述TF‑ENT方法,特征词t<sub>k</sub>在文档d<sub>i</sub>中的权重W(t<sub>k</sub>,d<sub>i</sub>)按照以下公式计算获得:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>W</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msqrt><mrow><msub><mi>tf</mi><mrow><mi>k</mi><mi>i</mi></mrow></msub></mrow></msqrt><mo>&times;</mo><mi>G</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>tf</mi><mrow><mi>k</mi><mi>i</mi></mrow></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>tf</mi><mrow><mi>k</mi><mi>i</mi></mrow></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000845612540000011.GIF" wi="741" he="170" /></maths>其中,k=1,2,…,n,为各特征词的索引序号,n为经过步骤3筛选后保留的不同特征词的数量;tf<sub>ki</sub>为特征词t<sub>k</sub>在文档d<sub>i</sub>中的词频;如果t<sub>k</sub>没有d<sub>i</sub>中出现,tf<sub>ki</sub>=0,则权重W(t<sub>k</sub>,d<sub>i</sub>)的值为0,否则以词频的平方根<img file="FDA0000845612540000012.GIF" wi="114" he="93" />作为特征词t<sub>k</sub>在文档d<sub>i</sub>中的局部权重因子;G(t<sub>k</sub>)为特征词t<sub>k</sub>在整个文本集中的全局权重因子,是利用特征词在训练集的所有不同文本类别上分布的信息熵计算获得的;步骤5:归一化处理特征词权重,生成文档特征向量并输出;按照以下公式对每个特征词的权重进行归一化处理,用每个特征词的归一化权重值<img file="FDA0000845612540000027.GIF" wi="169" he="79" />组成文档d<sub>i</sub>的特征向量<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>D</mi><mi>i</mi></msub><mo>=</mo><mo>&lsqb;</mo><mover><mi>w</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mover><mi>w</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msub><mi>t</mi><mn>2</mn></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>...</mo><mo>...</mo><mo>,</mo><mover><mi>w</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msub><mi>t</mi><mi>n</mi></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo><mo>;</mo></mrow>]]></math><img file="FDA0000845612540000021.GIF" wi="923" he="80" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mover><mi>w</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>W</mi><mrow><mo>(</mo><mrow><msub><mi>t</mi><mi>k</mi></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow></mrow><msqrt><mrow><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>j</mi></msub><mo>&Element;</mo><msub><mi>d</mi><mi>i</mi></msub></mrow></munder><mi>W</mi><msup><mrow><mo>(</mo><msub><mi>t</mi><mi>j</mi></msub><mo>,</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000845612540000022.GIF" wi="558" he="224" /></maths>其中,t<sub>k</sub>和t<sub>j</sub>均为在文档d<sub>i</sub>中出现的特征词;如果t<sub>k</sub>没有在d<sub>i</sub>中出现,则相应的归一化权重值<img file="FDA0000845612540000023.GIF" wi="168" he="76" />为0。
地址 410083 湖南省长沙市岳麓区麓山南路932号