发明名称 一种面向事件的查询扩展方法
摘要 本发明公开了一种面向事件的查询扩展方法,其步骤如下:(1)输入查询内容,获取局部文本集合N;(2)从集合N中识别得到事件集合E;(3)分别从查询项中区分事件项Qe和限定项Qe′;(4)计算查询项的事件项Qe与集合E中每个事件的关联强度,从集合E中选择关联强度大的若干个事件添加到Qe中扩展,得到扩展的事件项(5)计算扩展事件项与集合M中的一篇文本d的相似度计算限定项Qe′与集合M中的一篇文本d的相似度为Sim(Qe′,d),计算得到Qexp与集合M中的一篇文本d的相似度为Sim(Qexp,d),依据相似度Sim(Qexp,d)的大小降序排列输出检索文本。该方法使用面向事件的查询扩展技术,区分查询内容中的事件项和限定项,在同样的查询主题上进行信息查询,能显著的提高事件类信息查询结果的准确率。
申请公布号 CN101853298B 申请公布日期 2012.08.15
申请号 CN201010186197.4 申请日期 2010.05.26
申请人 上海大学 发明人 仲兆满;刘宗田;周文
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海上大专利事务所(普通合伙) 31205 代理人 陆聪明
主权项 1.一种面向事件的查询扩展方法,其具体步骤如下:(1)、输入查询内容,对查询内容进行分词、滤除停用词后得到查询项Q,计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次m<sub>i</sub>,其中,1≤i≤|M|,|M|指集合M的文本篇数,按照m<sub>i</sub>的大小降序排列文本集合M中的文本,选取前面的排序小于或等于n的文本组成局部文本集合N;(2)、依据从文本中识别事件的规则,从局部文本集合N中识别得到所有的事件,由上述所有事件组成的集合称为事件集合E,其具体步骤如下:(2-1)、将局部文本集合N经ICTCLAS分词工具分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;(2-2)、从候选事件集合E1中删除表示属性、状态的动词,得到候选事件集E2;(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述的动词,得到候选事件集E3;(2-4)、从候选事件集E3中删除一部分抽象意义高的动词,然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中,最后得到的候选事件集合E,即为所述局部文本集合N的事件集合E;(3)、分别从查询项中区分事件项Q<sub>e</sub>和限定项Q<sub>e</sub>′,其具体步骤如下:(3-1)、依据权利要求1步骤(2)从文本中识别事件的规则,从查询项中判别得到事件项Q<sub>e</sub>;(3-2)、对查询内容进行ICTCLAS分词、滤除停用词后,依据《汉语文本词性标注标记集》,从查询项Q中选取所有的人名(/nr)、地名(/ns)、机构团体(/nt)和时间词(/t)得到限定项Q<sub>e</sub>′;(4)、根据步骤(2)和步骤(3),计算查询项的事件项Q<sub>e</sub>与事件集合E中每个事件的关联强度,从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Q<sub>e</sub>中扩展,扩展后的事件项构成扩展事件项<img file="FSB00000817962600011.GIF" wi="104" he="51" />其具体步骤如下:(4-1)、假设查询项Q的事件项包含m个事件Q<sub>e</sub>={e<sub>1</sub>,e<sub>2</sub>,…e<sub>m</sub>},事件集合E中待扩展中的一个事件记作e<sub>x</sub>,则e<sub>i</sub>∈Q<sub>e</sub>对e<sub>x</sub>的影响因子的计算公式为:<maths num="0001"><![CDATA[<math><mrow><msub><mi>w</mi><mi>ix</mi></msub><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><msub><mi>F</mi><mi>d</mi></msub><mrow><mo>(</mo><msub><mi>e</mi><mrow><mi>i</mi><mo>,</mo></mrow></msub><msub><mi>e</mi><mi>x</mi></msub><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><msub><mi>N</mi><mi>d</mi></msub><msub><mi>e</mi><mi>i</mi></msub></mrow></mfrac></mrow></math>]]></maths>其中,<img file="FSB00000817962600022.GIF" wi="78" he="61" />是事件e<sub>i</sub>对事件e<sub>x</sub>的影响因子;N是所述的局部文本集合;d是所述的文本集合N中的任意一篇文本;N<sub>d</sub>e<sub>i</sub>是事件e<sub>i</sub>在文本d中出现的频次;F<sub>d</sub>(e<sub>i</sub>,e<sub>x</sub>)是事件e<sub>i</sub>出现的文本d,事件e<sub>x</sub>也同时在其中出现的次数;如果w<sub>ix</sub>>1,则令w<sub>ix</sub>=1;(4-2)、事件集合E中待扩展的某个事件e<sub>x</sub>与事件项Q<sub>e</sub>={e<sub>1</sub>,e<sub>2</sub>,…e<sub>m</sub>}的关联强度计算公式为:<maths num="0002"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>x</mi></msub><mo>,</mo><msub><mi>Q</mi><mi>e</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>e</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>Q</mi><mi>e</mi></msub></mrow></munder><msub><mi>w</mi><mi>ix</mi></msub></mrow></math>]]></maths>其中,w<sub>ix</sub>是事件e<sub>i</sub>对事件e<sub>x</sub>影响的因子,其中,1≤i≤m;根据f的大小,选取k个事件添加到查询项的事件项Q<sub>e</sub>中扩展,得到扩展后的扩展事件项<img file="FSB00000817962600024.GIF" wi="105" he="68" />(5)、向量化查询项的扩展事件项<img file="FSB00000817962600025.GIF" wi="106" he="51" />限定项Q<sub>e</sub>′及文本集合M中的每篇文本,计算扩展事件项<img file="FSB00000817962600026.GIF" wi="79" he="51" />与文本集合M中的一篇文本d的相似度<img file="FSB00000817962600027.GIF" wi="272" he="52" />计算限定项Q<sub>e</sub>′与文本集合M中的一篇文本d的相似度为Sim(Q<sub>e</sub>′,d),计算得到扩展查询项Q<sup>exp</sup>与文本集合M中的一篇文本d的相似度为Sim(Q<sup>exp</sup>,d),检索文本按照查询项Q<sup>exp</sup>与文本集合M中每篇文本d之间的相似度Sim(Q<sup>exp</sup>,d)的大小降序排列输出,其具体步骤如下:(5-1)、计算查询项的扩展事件项<img file="FSB00000817962600028.GIF" wi="78" he="52" />的权值计算查询项的扩展事件项<img file="FSB00000817962600029.GIF" wi="80" he="54" />的权值,其计算公式为:wt<sub>i</sub>=1.0-0.9×i/s其中,wt<sub>i</sub>是第i个事件项的权重;s是事件项的个数;(5-2)、计算查询项的限定项Q<sub>e</sub>′的权值计算查询项的限定项Q<sub>e</sub>′的权值,其计算公式为:<maths num="0003"><![CDATA[<math><mrow><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>=</mo><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>Q</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><mi>N</mi><mo>|</mo></mrow></mfrac></mrow></math>]]></maths>其中,x∈Q<sub>e</sub>′,W(x|Q)是限定项x的初始权重,W(x|Q)的计算是根据x在查询项Q中出现的频次;W(x|Q<sub>e</sub>′)是限定项x的最终权重;W(x|d)为查询项x在文本d中出现的频次;N是局部文本集合;(5-3)、计算文本集合M中每篇文本的特征项的权值文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次;(5-4)、根据步骤(5-1)和步骤(5-3),计算查询项的扩展事件项<img file="FSB00000817962600032.GIF" wi="82" he="51" />与文本集合M中每篇文本之间的相似度计算查询项的扩展事件项<img file="FSB00000817962600033.GIF" wi="81" he="52" />与文本集合M中每篇文本d之间的相似度,其计算公式为:<maths num="0004"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>e</mi><mi>i</mi></msub><mo>&Element;</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>&cap;</mo><mi>d</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>)</mo></mrow><mo>&times;</mo><mi>W</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>&times;</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><mi>d</mi><mo>|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>&times;</mo><mo>|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>|</mo></mrow></mfrac></mrow></math>]]></maths>其中,<img file="FSB00000817962600035.GIF" wi="260" he="52" />表示e<sub>i</sub>是<img file="FSB00000817962600036.GIF" wi="72" he="42" />和d的共同事件项;<img file="FSB00000817962600037.GIF" wi="103" he="78" />和|d|分别是向量<img file="FSB00000817962600038.GIF" wi="72" he="43" />和d的大小;(5-5)、根据步骤(5-2)和步骤(5-3),计算查询项的限定项Q<sub>e</sub>′与文本集合M中每篇文本之间的相似度计算查询项的限定项Q<sub>e</sub>′与集合M中每篇文本d的相似度,其计算公式为:<maths num="0005"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><msub><msup><mi>e</mi><mo>&prime;</mo></msup><mi>i</mi></msub><mo>&Element;</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>&cap;</mo><mi>d</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>&prime;</mo></msup><mi>i</mi></msub><mo>|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>&prime;</mo></msup><mi>i</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>&prime;</mo></msup><mi>i</mi></msub><mo>|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>&times;</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><mi>d</mi><mo>|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>&prime;</mo></msup><mi>i</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>&times;</mo><mo>|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>|</mo></mrow></mfrac></mrow></math>]]></maths>其中,e′<sub>i</sub>∈Q<sub>e</sub>′∩d表示限定项e′<sub>i</sub>是Q<sub>e</sub>′和d的共同限定项;|Q<sub>e</sub>′|是向量Q<sub>e</sub>′的大小;(5-6)、根据步骤(5-4)和步骤(5-5),计算查询项Q<sup>exp</sup>与文本集合M中每篇文本之间的相似度计算查询项Q<sup>exp</sup>与文本集合M中每篇文本d的相似度,其计算公式为:<maths num="0006"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msup><mi>Q</mi><mi>exp</mi></msup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mi>Sim</mi><mrow><mo>(</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>Sim</mi><mrow><mo>(</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>&prime;</mo></msup></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow></math>]]></maths>(5-7)、检索文本按照查询项Q<sup>exp</sup>与文本集合M中每篇文本d之间的相似度Sim(Q<sup>exp</sup>,d)的大小降序排列输出。
地址 200444 上海市宝山区上大路99号