发明名称 基于互信息的用于文档分类的并行特征选择方法
摘要 本发明的基于互信息的用于文档分类的并行特征选择方法,包括a).选取样本并分类;b).求解词的TF‑IDF值;c).生成初始化数据集合D={x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>};d).分布式计算,将所有子数据集平均分布到m个计算节点上;e).建立集合,S=Φ,V={X<sub>1</sub>,X<sub>2</sub>,...,X<sub>M</sub>};f).计算联合、条件概率分布;g).计算互信息;h).选取特征变量;i).判断数量是否已够;j).文本分类。本发明的文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,使得最终选取的特征变量的更能代表文档分类的特征,分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。
申请公布号 CN105183813B 申请公布日期 2017.03.15
申请号 CN201510532920.2 申请日期 2015.08.26
申请人 山东省计算中心(国家超级计算济南中心);山东亿云信息技术有限公司 发明人 李钊;顾卫东;孙占全
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南泉城专利商标事务所 37218 代理人 褚庆森
主权项 一种基于互信息的用于文档分类的并行特征选择方法,其特征在于,通过以下步骤来实现:a).选取样本并分类,选取N篇文档,形成训练样本集合D={d<sub>1</sub>,d<sub>2</sub>,...,d<sub>N</sub>},d<sub>i</sub>为选取的单篇文档;采用人工划分的方式每个文档进行分类,形成类变量集合C=Y={c<sub>1</sub>,c<sub>2</sub>,...,c<sub>p</sub>},文档d<sub>i</sub>的种类必属于类变量集合C;b).求解词的TF‑IDF值,TF‑IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,对于每个文档中的每个词计算求解其TF‑IDF值;在所有文档中如果某个词的TF‑IDF值都小于临界值m,则该词属于低频词,将其忽略掉;c).生成初始化数据集合,以每个文档中词的TF‑IDF值为向量,组成初始化数据集合D={x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>},x<sub>i</sub>为文档i中所有被选中词的TF‑IDF值所组成的向量;d).分布式计算,将数据集合D={x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>}平均分成n个子数据集D<sub>1</sub>,D<sub>2</sub>,…,D<sub>n</sub>,然后将所有子数据集平均分布到m个计算节点上,以确保较高的计算速度;设要选择出数目为k的词变量集合;e).建立集合,假设S和V为两个集合,设S=Φ,V={X<sub>1</sub>,X<sub>2</sub>,...,X<sub>M</sub>},S表示已被选择的特征,V表示没被选择的特征,M表示特征变量个数;f).计算联合、条件概率分布,对于每个没有被选中的词变量X<sub>i</sub>,计算联合概率分布p({S,X<sub>i</sub>})和条件概率分布函数p({S,X<sub>i</sub>}|C<sub>j</sub>),i∈{1,2,...,M},M表示特征变量个数;j∈{1,2,...,p};p({S,X<sub>i</sub>})表示某一文档中待判断的特征变量X<sub>i</sub>与已选中的特征词集合S之间的联合概率分布;g).计算互信息,通过公式(1)计算{S,X<sub>i</sub>}与类变量Y之间的互信息I({S,X<sub>i</sub>};Y):I({S,X<sub>i</sub>};Y)=H({S,X<sub>i</sub>})+H(Y)‑H({S,X<sub>i</sub>},Y)    (1)其中,i∈{1,2,...,M},M表示特征变量个数;每个计算节点计算完毕后,本次计算中使互信息I({S,X<sub>i</sub>};Y)具有最大值的特征变量X<sub>i</sub>作为选中词;h).选取特征变量,统计每个计算节点所返回的特征变量X<sub>i</sub>和相应的互信息,被选中次数最多的词X<sub>i</sub>作为本次计算所要选择的特征变量;如果两个变量被选中的次数一样多,则选择互信息值的和最大的特征变量作为计算所要选择的特征变量;把本次计算中选取的词变量X<sub>i</sub>从集合V中去除,将其增添至集合S中,执行步骤i);i).判断数量是否已够,判断集合S中所选取的特征变量的数目是否达到了设定的k个,如果达到,则停止运算;如果没有达到,则跳转至步骤f),继续进行特征变量的选取;j).文本分类,利用所选取的k个特征变量作为支持向量机的输入对文本进行分类,具有很高的准确率;其中,步骤f)中所述的联合概率分布和条件概率分布通过以下步骤来实现:f‑1).假设一组训练文档样本用(x<sub>i</sub>,c<sub>i</sub>)表示,i=1,2,…,N,x<sub>i</sub>是文档中所有TF‑IDF值组成的向量,其中每个文档的向量值和对应的类变量值都已知,通过公式(5)计算概率分布函数:<maths num="0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mo>|</mo><mover><mo>&Sigma;</mo><mo>^</mo></mover><msup><mo>|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mover><mi>&mu;</mi><mo>^</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mover><mo>&Sigma;</mo><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mover><mi>&mu;</mi><mo>^</mo></mover><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000021.GIF" wi="1261" he="179" /></maths>其中,参数μ和∑的极大似然估计分别通过公式(6)和公式(7)进行求取:<maths num="0002"><math><![CDATA[<mrow><mover><mi>&mu;</mi><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000022.GIF" wi="998" he="120" /></maths><maths num="0003"><math><![CDATA[<mrow><mover><mo>&Sigma;</mo><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mover><mi>&mu;</mi><mo>^</mo></mover><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mover><mi>&mu;</mi><mo>^</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000023.GIF" wi="1030" he="111" /></maths>f‑2).最初的数据集合被分成q部分,每部分的大小为N<sub>j</sub>,它满足<img file="FDA0001134006890000024.GIF" wi="197" he="111" />类C=c<sub>j</sub>的概率分布函数为:<maths num="0004"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mo>|</mo><msub><mover><mo>&Sigma;</mo><mo>^</mo></mover><mi>j</mi></msub><msup><mo>|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>&mu;</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msub><mover><mo>&Sigma;</mo><mo>^</mo></mover><mi>j</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>&mu;</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000025.GIF" wi="1206" he="166" /></maths>f‑3).离散类变量的概率分布函数通过统计方法计算,即:<maths num="0005"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>N</mi><mi>j</mi></msub><mi>N</mi></mfrac><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>q</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000031.GIF" wi="710" he="118" /></maths>f‑4).X和C=c<sub>j</sub>的联合概率分布函数为:<maths num="0006"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfrac><msub><mi>N</mi><mi>j</mi></msub><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mi>N</mi><mo>|</mo><msub><mover><mo>&Sigma;</mo><mo>^</mo></mover><mi>j</mi></msub><msup><mo>|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>&mu;</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msub><mover><mo>&Sigma;</mo><mo>^</mo></mover><mi>j</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>&mu;</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000032.GIF" wi="1550" he="263" /></maths>将变量{S,X<sub>i</sub>}代入公式(10)和(8)即可求取联合概率分布函数和条件概率分布函数。
地址 250014 山东省济南市历下区科院路19号山东省计算中心