发明名称 一种基于词出现间距的内在与外在模式熵差的关键词排序方法
摘要 本发明提出一种基于通过词出现间距的内在与外在模式的信息熵差进行关键词排序的方法,属于文字信息处理领域。本方法认为关键词的出现受到两个模式的影响:(1)内在模式,描述在一个话题中的关键词位置的统计特性;(2)外在模式,描述文本中话题簇出现的统计属性。真实文本上实验结果发现,一个词出现间距的内外模式和外在模式信息熵差越大,那么他是关键词的可能性也就越大。
申请公布号 CN103336806A 申请公布日期 2013.10.02
申请号 CN201310253678.6 申请日期 2013.06.24
申请人 北京工业大学 发明人 杨震;司书勇;雷建军;范科峰;赖英旭
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 刘萍
主权项 1.一种基于词出现间距的内在与外在模式熵差的关键词排序方法,其特征在于步骤如下:步骤(1)获取文本获取文本,文本由若干数目的句子组成;步骤(2)文本预处理步骤(2.1)去除所有的标点符号,将所有的字母转换为小写;文中的目录,词汇表,以及索引均从文本中移除;步骤(2.2)对于英文文本,基于简单空格进行分词;先去除停用词,英文的不同词形当成不同的词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(2.3)对于中文文本,使用常用分词软件进行分词;使用通用分词算法对中文文本进行分词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(3)词出现间距的内在与外在外模式发现步骤(3.1)标注词出现位置;假设文本长度为N,即步骤(2)中的全文总的词数量,一个词A在文本中共出现m次,即步骤(2)中的词频,其出现的位置表示为t<sub>1</sub>,t<sub>2</sub>,t<sub>3</sub>,…..t<sub>m</sub>,分别代表词A在文本的t<sub>1</sub>,t<sub>2</sub>,t<sub>3</sub>,…..t<sub>m</sub>位置出现;步骤(3.2)计算词出现位置间距文本中词A 的m次出现的位置表示成:t<sub>1</sub>,t<sub>2</sub>,t<sub>3</sub>,…..t<sub>m</sub>;其中d<sub>1</sub>,……d<sub>m-1</sub>,意义如同上文表示间距,t<sub>m</sub>依然是词第m次出现的位置;词出现在相邻的的位置上的位置差以写成这样d<sub>i</sub>=t<sub>i+1</sub>-t<sub>i</sub>,词间距集合为d<sub>1</sub>,d<sub>2</sub>,……d<sub>m-1</sub>;对于C<sub>-1</sub>边界条件,假设文本边界在-1和N这两个位置,那么距离集合修正为d<sub>0</sub><sup>-1</sup>,d<sub>1</sub>……d<sub>m-1</sub>,d<sub>m</sub><sup>-1</sup>,<img file="FDA0000339951661.GIF" wi="550" he="75" />对于C<sub>0</sub>边界条件,假设文本边界在0和N+1这两个位置,那么文本距离集合修正为d<sub>0</sub><sup>0</sup>,d<sub>1</sub>,……d<sub>m-1</sub>,d<sub>m</sub><sup>0</sup>,其中<img file="FDA0000339951662.GIF" wi="522" he="75" />对于C<sub>c</sub>边界条件,假设文本的首尾相连,距离集合修正为d<sub>1</sub>,d<sub>2</sub>……d<sub>m-1</sub>,d<sub>m</sub><sup>c</sup>,<img file="FDA0000339951663.GIF" wi="66" he="78" />是文本连成环状的状态下,词的最后一次出现与第一次出现的距离;并且<img file="FDA0000339951664.GIF" wi="341" he="66" />步骤(3.3)划分词出现间距的内在与外在模式的根据前面的每一个词的位置间距集合,算出词的间距的平均值μ,用此平均值作为划分内外模式的依据;如果d<sub>i</sub>≤μ那么把d<sub>i</sub>归为内模式,d<sub>i</sub>&gt;μ那么把d<sub>i</sub>归为外模式;依此依据,这样就把词的间距划分成内外两个模式的集合;内模式的集合记为d<sup>A</sup>,外模式的集合记为d<sup>B</sup>;步骤(3.4)计算词出现间距的内在与外在模式的熵内在模式的集合d<sup>A</sup> ={d<sub>i</sub> |d<sub>i</sub>≤μ } 表示所有d<sub>i</sub>≤μ的集合;那么一个词出现间距的内在模式的熵定义为:<maths num="0001"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><msup><mi>d</mi><mi>A</mi></msup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&Element;</mo><msup><mi>d</mi><mi>A</mi></msup></mrow></munder><msub><mi>P</mi><mi>d</mi></msub><msub><mi>log</mi><mn>2</mn></msub><msub><mi>P</mi><mi>d</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>在这里d也是间距, d属于{1,2,3,......N},并且P<sub>d</sub>表示的是在d<sup>A</sup>中d出现的概率;在d<sup>A</sup>中d出现的词数为n<sub>d </sub>,d<sup>A</sup>中数据个数为S<sub>A</sub>,P<sub>d</sub>=n<sub>d</sub>/S<sub>A</sub>;依据公式(6)计算出内模式的熵;外模式的集合d<sup>B</sup>= {d<sub>i</sub> |d<sub>i</sub>&gt;μ} 表示所有d<sub>i</sub>&gt;μ的集合;那么一个词出现间距的外在模式的熵定义为:<maths num="0002"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><msup><mi>d</mi><mi>B</mi></msup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&Element;</mo><msup><mi>d</mi><mi>B</mi></msup></mrow></munder><msub><mi>P</mi><mi>d</mi></msub><msub><mi>log</mi><mn>2</mn></msub><msub><mi>P</mi><mi>d</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>在这里d也是间距, d属于{1,2,3,......N},并且P<sub>d</sub>表示的是在d<sup>B</sup>中d出现的概率;在d<sup>B</sup>中d出现的词数为n<sub>d </sub>,d<sup>B</sup>中数据个数为S<sub>B</sub>,P<sub>d</sub>=n<sub>d</sub>/S<sub>B</sub>;依据公式(7)就算出外模式的熵;步骤(3.5)计算词出现间距的内在与外在模式熵差(ED<sup>2</sup>(d)=(H(d<sup>A</sup>))<sup>2</sup>-(H(d<sup>B</sup>))<sup>2</sup>     (8)步骤(3.6)计算熵差归一化归一化的熵差ED<sub>nor</sub>定义如下:<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>ED</mi><mi>nor</mi><mi>q</mi></msubsup><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>ED</mi><mi>q</mi></msup><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msubsup><mi>ED</mi><mi>geo</mi><mi>q</mi></msubsup><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<maths num="0004"><![CDATA[<math><mrow><msubsup><mi>ED</mi><mi>geo</mi><mi>q</mi></msubsup><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&le;</mo><mi>N</mi><mo>/</mo><mi>m</mi></mrow></munder><mfrac><msup><mrow><mi>p</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>p</mi><mi>A</mi></msup></mfrac><mi>log</mi><mfrac><msup><mrow><mi>p</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>p</mi><mi>A</mi></msup></mfrac><mo>)</mo></mrow><mi>q</mi></msup><mo>-</mo><msup><mrow><mo>(</mo><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&GreaterEqual;</mo><mi>N</mi><mo>/</mo><mi>m</mi></mrow></munder><mfrac><mrow><mi>p</mi><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup></mrow><msup><mi>p</mi><mi>B</mi></msup></mfrac><mi>log</mi><mfrac><mrow><mi>p</mi><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup></mrow><msup><mi>p</mi><mi>B</mi></msup></mfrac><mo>)</mo></mrow><mi>q</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中<maths num="0005"><![CDATA[<math><mrow><msup><mi>p</mi><mi>A</mi></msup><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&le;</mo><mi>N</mi><mo>/</mo><mi>m</mi></mrow></munder><mi>p</mi><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>,</mo><msup><mi>p</mi><mi>B</mi></msup><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&gt;</mo><mi>N</mi><mo>/</mo><mi>m</mi></mrow></munder><mi>p</mi><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>p</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>;</mo></mrow></math>]]></maths>公式(10)中q=2,d是词间距,表示d<sup>A</sup>或者d<sup>B </sup>中的一个元素;N/m表示的是间距的期望,也就是上文中平均间距值μ;p=m/N表示的是词在文本中的概率,m为相应词的词频,N代表是全文总的词数量;p(1-p)<sup>d-1</sup>相当于d重伯努利试验;步骤(4)根据熵差对词汇进行排序根据步骤(2)中分好的词,根据上边的公式(6)到(10)依次计算每一个词的熵差,计算完成后,对所有词依据熵差由大到小来进行排序。
地址 100124 北京市朝阳区平乐园100号
您可能感兴趣的专利