基于互信息的用于文档分类的并行特征选择方法,申请号CN201510532920.2-传众专利搜索

发明名称	基于互信息的用于文档分类的并行特征选择方法
摘要	本发明的基于互信息的用于文档分类的并行特征选择方法，包括a).选取样本并分类；b).求解词的TF‑IDF值；c).生成初始化数据集合D＝{x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>}；d).分布式计算，将所有子数据集平均分布到m个计算节点上；e).建立集合，S＝Φ，V＝{X<sub>1</sub>,X<sub>2</sub>,...,X<sub>M</sub>}；f).计算联合、条件概率分布；g).计算互信息；h).选取特征变量；i).判断数量是否已够；j).文本分类。本发明的文档分类的并行特征选择方法，基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性，使得最终选取的特征变量的更能代表文档分类的特征，分类效果更准确，分类结果要好于目前常用特征选择方法得到的结果，有益效果显著，适于推广应用。
申请公布号	CN105183813B	申请公布日期	2017.03.15
申请号	CN201510532920.2	申请日期	2015.08.26
申请人	山东省计算中心(国家超级计算济南中心);山东亿云信息技术有限公司	发明人	李钊;顾卫东;孙占全
分类号	G06F17/30(2006.01)I;G06K9/62(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南泉城专利商标事务所 37218	代理人	褚庆森
主权项	一种基于互信息的用于文档分类的并行特征选择方法，其特征在于，通过以下步骤来实现：a).选取样本并分类，选取N篇文档，形成训练样本集合D＝{d<sub>1</sub>,d<sub>2</sub>,...,d<sub>N</sub>}，d<sub>i</sub>为选取的单篇文档；采用人工划分的方式每个文档进行分类，形成类变量集合C＝Y＝{c<sub>1</sub>,c<sub>2</sub>,...,c<sub>p</sub>}，文档d<sub>i</sub>的种类必属于类变量集合C；b).求解词的TF‑IDF值，TF‑IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积，对于每个文档中的每个词计算求解其TF‑IDF值；在所有文档中如果某个词的TF‑IDF值都小于临界值m，则该词属于低频词，将其忽略掉；c).生成初始化数据集合，以每个文档中词的TF‑IDF值为向量，组成初始化数据集合D＝{x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>}，x<sub>i</sub>为文档i中所有被选中词的TF‑IDF值所组成的向量；d).分布式计算，将数据集合D＝{x<sub>1</sub>,x<sub>2</sub>,...,x<sub>N</sub>}平均分成n个子数据集D<sub>1</sub>,D<sub>2</sub>,…,D<sub>n</sub>，然后将所有子数据集平均分布到m个计算节点上，以确保较高的计算速度；设要选择出数目为k的词变量集合；e).建立集合，假设S和V为两个集合，设S＝Φ，V＝{X<sub>1</sub>,X<sub>2</sub>,...,X<sub>M</sub>}，S表示已被选择的特征，V表示没被选择的特征，M表示特征变量个数；f).计算联合、条件概率分布，对于每个没有被选中的词变量X<sub>i</sub>，计算联合概率分布p({S,X<sub>i</sub>})和条件概率分布函数p({S,X<sub>i</sub>}\|C<sub>j</sub>)，i∈{1,2,...,M}，M表示特征变量个数；j∈{1,2,...,p}；p({S,X<sub>i</sub>})表示某一文档中待判断的特征变量X<sub>i</sub>与已选中的特征词集合S之间的联合概率分布；g).计算互信息，通过公式(1)计算{S,X<sub>i</sub>}与类变量Y之间的互信息I({S,X<sub>i</sub>}；Y)：I({S,X<sub>i</sub>}；Y)＝H({S,X<sub>i</sub>})+H(Y)‑H({S,X<sub>i</sub>},Y) (1)其中，i∈{1,2,...,M}，M表示特征变量个数；每个计算节点计算完毕后，本次计算中使互信息I({S,X<sub>i</sub>}；Y)具有最大值的特征变量X<sub>i</sub>作为选中词；h).选取特征变量，统计每个计算节点所返回的特征变量X<sub>i</sub>和相应的互信息，被选中次数最多的词X<sub>i</sub>作为本次计算所要选择的特征变量；如果两个变量被选中的次数一样多，则选择互信息值的和最大的特征变量作为计算所要选择的特征变量；把本次计算中选取的词变量X<sub>i</sub>从集合V中去除，将其增添至集合S中，执行步骤i)；i).判断数量是否已够，判断集合S中所选取的特征变量的数目是否达到了设定的k个，如果达到，则停止运算；如果没有达到，则跳转至步骤f)，继续进行特征变量的选取；j).文本分类，利用所选取的k个特征变量作为支持向量机的输入对文本进行分类，具有很高的准确率；其中，步骤f)中所述的联合概率分布和条件概率分布通过以下步骤来实现：f‑1).假设一组训练文档样本用(x<sub>i</sub>,c<sub>i</sub>)表示，i＝1,2,…,N,x<sub>i</sub>是文档中所有TF‑IDF值组成的向量，其中每个文档的向量值和对应的类变量值都已知，通过公式(5)计算概率分布函数：<maths num="0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>π</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mo>\|</mo><mover><mo>Σ</mo><mo>^</mo></mover><msup><mo>\|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mover><mi>μ</mi><mo>^</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mover><mo>Σ</mo><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mover><mi>μ</mi><mo>^</mo></mover><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000021.GIF" wi="1261" he="179" /></maths>其中，参数μ和∑的极大似然估计分别通过公式(6)和公式(7)进行求取：<maths num="0002"><math><![CDATA[<mrow><mover><mi>μ</mi><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000022.GIF" wi="998" he="120" /></maths><maths num="0003"><math><![CDATA[<mrow><mover><mo>Σ</mo><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mover><mi>μ</mi><mo>^</mo></mover><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mover><mi>μ</mi><mo>^</mo></mover><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000023.GIF" wi="1030" he="111" /></maths>f‑2).最初的数据集合被分成q部分，每部分的大小为N<sub>j</sub>，它满足<img file="FDA0001134006890000024.GIF" wi="197" he="111" />类C＝c<sub>j</sub>的概率分布函数为：<maths num="0004"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>π</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mo>\|</mo><msub><mover><mo>Σ</mo><mo>^</mo></mover><mi>j</mi></msub><msup><mo>\|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msub><mover><mo>Σ</mo><mo>^</mo></mover><mi>j</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000025.GIF" wi="1206" he="166" /></maths>f‑3).离散类变量的概率分布函数通过统计方法计算，即：<maths num="0005"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>N</mi><mi>j</mi></msub><mi>N</mi></mfrac><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>q</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000031.GIF" wi="710" he="118" /></maths>f‑4).X和C＝c<sub>j</sub>的联合概率分布函数为：<maths num="0006"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfrac><msub><mi>N</mi><mi>j</mi></msub><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>π</mi><mo>)</mo></mrow><mrow><mi>M</mi><mo>/</mo><mn>2</mn></mrow></msup><mi>N</mi><mo>\|</mo><msub><mover><mo>Σ</mo><mo>^</mo></mover><mi>j</mi></msub><msup><mo>\|</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msub><mover><mo>Σ</mo><mo>^</mo></mover><mi>j</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>j</mi></msub><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001134006890000032.GIF" wi="1550" he="263" /></maths>将变量{S,X<sub>i</sub>}代入公式(10)和(8)即可求取联合概率分布函数和条件概率分布函数。
地址	250014 山东省济南市历下区科院路19号山东省计算中心