一种面向事件的查询扩展方法,申请号CN201010186197.4-传众专利搜索

发明名称	一种面向事件的查询扩展方法
摘要	本发明公开了一种面向事件的查询扩展方法，其步骤如下：(1)输入查询内容，获取局部文本集合N；(2)从集合N中识别得到事件集合E；(3)分别从查询项中区分事件项Qe和限定项Qe′；(4)计算查询项的事件项Qe与集合E中每个事件的关联强度，从集合E中选择关联强度大的若干个事件添加到Qe中扩展，得到扩展的事件项(5)计算扩展事件项与集合M中的一篇文本d的相似度计算限定项Qe′与集合M中的一篇文本d的相似度为Sim(Qe′，d)，计算得到Qexp与集合M中的一篇文本d的相似度为Sim(Qexp，d)，依据相似度Sim(Qexp，d)的大小降序排列输出检索文本。该方法使用面向事件的查询扩展技术，区分查询内容中的事件项和限定项，在同样的查询主题上进行信息查询，能显著的提高事件类信息查询结果的准确率。
申请公布号	CN101853298B	申请公布日期	2012.08.15
申请号	CN201010186197.4	申请日期	2010.05.26
申请人	上海大学	发明人	仲兆满;刘宗田;周文
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海上大专利事务所(普通合伙) 31205	代理人	陆聪明
主权项	1.一种面向事件的查询扩展方法，其具体步骤如下：(1)、输入查询内容，对查询内容进行分词、滤除停用词后得到查询项Q，计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次m<sub>i</sub>，其中，1≤i≤\|M\|，\|M\|指集合M的文本篇数，按照m<sub>i</sub>的大小降序排列文本集合M中的文本，选取前面的排序小于或等于n的文本组成局部文本集合N；(2)、依据从文本中识别事件的规则，从局部文本集合N中识别得到所有的事件，由上述所有事件组成的集合称为事件集合E，其具体步骤如下：(2-1)、将局部文本集合N经ICTCLAS分词工具分词后，依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1；(2-2)、从候选事件集合E1中删除表示属性、状态的动词，得到候选事件集E2；(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述的动词，得到候选事件集E3；(2-4)、从候选事件集E3中删除一部分抽象意义高的动词，然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中，最后得到的候选事件集合E，即为所述局部文本集合N的事件集合E；(3)、分别从查询项中区分事件项Q<sub>e</sub>和限定项Q<sub>e</sub>′，其具体步骤如下：(3-1)、依据权利要求1步骤(2)从文本中识别事件的规则，从查询项中判别得到事件项Q<sub>e</sub>；(3-2)、对查询内容进行ICTCLAS分词、滤除停用词后，依据《汉语文本词性标注标记集》，从查询项Q中选取所有的人名(/nr)、地名(/ns)、机构团体(/nt)和时间词(/t)得到限定项Q<sub>e</sub>′；(4)、根据步骤(2)和步骤(3)，计算查询项的事件项Q<sub>e</sub>与事件集合E中每个事件的关联强度，从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Q<sub>e</sub>中扩展，扩展后的事件项构成扩展事件项<img file="FSB00000817962600011.GIF" wi="104" he="51" />其具体步骤如下：(4-1)、假设查询项Q的事件项包含m个事件Q<sub>e</sub>＝{e<sub>1</sub>，e<sub>2</sub>，…e<sub>m</sub>}，事件集合E中待扩展中的一个事件记作e<sub>x</sub>，则e<sub>i</sub>∈Q<sub>e</sub>对e<sub>x</sub>的影响因子的计算公式为：<maths num="0001"><![CDATA[<math><mrow><msub><mi>w</mi><mi>ix</mi></msub><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><msub><mi>F</mi><mi>d</mi></msub><mrow><mo>(</mo><msub><mi>e</mi><mrow><mi>i</mi><mo>,</mo></mrow></msub><msub><mi>e</mi><mi>x</mi></msub><mo>)</mo></mrow></mrow><mrow><munder><mi>Σ</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><msub><mi>N</mi><mi>d</mi></msub><msub><mi>e</mi><mi>i</mi></msub></mrow></mfrac></mrow></math>]]></maths>其中，<img file="FSB00000817962600022.GIF" wi="78" he="61" />是事件e<sub>i</sub>对事件e<sub>x</sub>的影响因子；N是所述的局部文本集合；d是所述的文本集合N中的任意一篇文本；N<sub>d</sub>e<sub>i</sub>是事件e<sub>i</sub>在文本d中出现的频次；F<sub>d</sub>(e<sub>i</sub>，e<sub>x</sub>)是事件e<sub>i</sub>出现的文本d，事件e<sub>x</sub>也同时在其中出现的次数；如果w<sub>ix</sub>＞1，则令w<sub>ix</sub>＝1；(4-2)、事件集合E中待扩展的某个事件e<sub>x</sub>与事件项Q<sub>e</sub>＝{e<sub>1</sub>，e<sub>2</sub>，…e<sub>m</sub>}的关联强度计算公式为：<maths num="0002"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>x</mi></msub><mo>,</mo><msub><mi>Q</mi><mi>e</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>e</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>Q</mi><mi>e</mi></msub></mrow></munder><msub><mi>w</mi><mi>ix</mi></msub></mrow></math>]]></maths>其中，w<sub>ix</sub>是事件e<sub>i</sub>对事件e<sub>x</sub>影响的因子，其中，1≤i≤m；根据f的大小，选取k个事件添加到查询项的事件项Q<sub>e</sub>中扩展，得到扩展后的扩展事件项<img file="FSB00000817962600024.GIF" wi="105" he="68" />(5)、向量化查询项的扩展事件项<img file="FSB00000817962600025.GIF" wi="106" he="51" />限定项Q<sub>e</sub>′及文本集合M中的每篇文本，计算扩展事件项<img file="FSB00000817962600026.GIF" wi="79" he="51" />与文本集合M中的一篇文本d的相似度<img file="FSB00000817962600027.GIF" wi="272" he="52" />计算限定项Q<sub>e</sub>′与文本集合M中的一篇文本d的相似度为Sim(Q<sub>e</sub>′，d)，计算得到扩展查询项Q<sup>exp</sup>与文本集合M中的一篇文本d的相似度为Sim(Q<sup>exp</sup>，d)，检索文本按照查询项Q<sup>exp</sup>与文本集合M中每篇文本d之间的相似度Sim(Q<sup>exp</sup>，d)的大小降序排列输出，其具体步骤如下：(5-1)、计算查询项的扩展事件项<img file="FSB00000817962600028.GIF" wi="78" he="52" />的权值计算查询项的扩展事件项<img file="FSB00000817962600029.GIF" wi="80" he="54" />的权值，其计算公式为：wt<sub>i</sub>＝1.0-0.9×i/s其中，wt<sub>i</sub>是第i个事件项的权重；s是事件项的个数；(5-2)、计算查询项的限定项Q<sub>e</sub>′的权值计算查询项的限定项Q<sub>e</sub>′的权值，其计算公式为：<maths num="0003"><![CDATA[<math><mrow><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>)</mo></mrow><mo>=</mo><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><mi>Q</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mo>\|</mo><mi>N</mi><mo>\|</mo></mrow></mfrac></mrow></math>]]></maths>其中，x∈Q<sub>e</sub>′，W(x\|Q)是限定项x的初始权重，W(x\|Q)的计算是根据x在查询项Q中出现的频次；W(x\|Q<sub>e</sub>′)是限定项x的最终权重；W(x\|d)为查询项x在文本d中出现的频次；N是局部文本集合；(5-3)、计算文本集合M中每篇文本的特征项的权值文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次；(5-4)、根据步骤(5-1)和步骤(5-3)，计算查询项的扩展事件项<img file="FSB00000817962600032.GIF" wi="82" he="51" />与文本集合M中每篇文本之间的相似度计算查询项的扩展事件项<img file="FSB00000817962600033.GIF" wi="81" he="52" />与文本集合M中每篇文本d之间的相似度，其计算公式为：<maths num="0004"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><msub><mi>e</mi><mi>i</mi></msub><mo>&Element;</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>∩</mo><mi>d</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>\|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>)</mo></mrow><mo>×</mo><mi>W</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>\|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><msqrt><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>\|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>\|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>\|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>×</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>\|</mo><mi>d</mi><mo>\|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>\|</mo><mi>d</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>×</mo><mo>\|</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>\|</mo></mrow></mfrac></mrow></math>]]></maths>其中，<img file="FSB00000817962600035.GIF" wi="260" he="52" />表示e<sub>i</sub>是<img file="FSB00000817962600036.GIF" wi="72" he="42" />和d的共同事件项；<img file="FSB00000817962600037.GIF" wi="103" he="78" />和\|d\|分别是向量<img file="FSB00000817962600038.GIF" wi="72" he="43" />和d的大小；(5-5)、根据步骤(5-2)和步骤(5-3)，计算查询项的限定项Q<sub>e</sub>′与文本集合M中每篇文本之间的相似度计算查询项的限定项Q<sub>e</sub>′与集合M中每篇文本d的相似度，其计算公式为：<maths num="0005"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><msub><msup><mi>e</mi><mo>′</mo></msup><mi>i</mi></msub><mo>&Element;</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>∩</mo><mi>d</mi></mrow></munder><mi>W</mi><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>′</mo></msup><mi>i</mi></msub><mo>\|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>)</mo></mrow><mo>×</mo><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>′</mo></msup><mi>i</mi></msub><mo>\|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><msqrt><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>\|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>\|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>′</mo></msup><mi>i</mi></msub><mo>\|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>×</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>\|</mo><mi>d</mi><mo>\|</mo></mrow></munderover><mi>W</mi><msup><mrow><mo>(</mo><msub><msup><mi>e</mi><mo>′</mo></msup><mi>i</mi></msub><mo>\|</mo><mi>d</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>×</mo><mo>\|</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>\|</mo></mrow></mfrac></mrow></math>]]></maths>其中，e′<sub>i</sub>∈Q<sub>e</sub>′∩d表示限定项e′<sub>i</sub>是Q<sub>e</sub>′和d的共同限定项；\|Q<sub>e</sub>′\|是向量Q<sub>e</sub>′的大小；(5-6)、根据步骤(5-4)和步骤(5-5)，计算查询项Q<sup>exp</sup>与文本集合M中每篇文本之间的相似度计算查询项Q<sup>exp</sup>与文本集合M中每篇文本d的相似度，其计算公式为：<maths num="0006"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msup><mi>Q</mi><mi>exp</mi></msup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mi>Sim</mi><mrow><mo>(</mo><msubsup><mi>Q</mi><mi>e</mi><mi>exp</mi></msubsup><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>Sim</mi><mrow><mo>(</mo><msub><mi>Q</mi><msup><mi>e</mi><mo>′</mo></msup></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow></math>]]></maths>(5-7)、检索文本按照查询项Q<sup>exp</sup>与文本集合M中每篇文本d之间的相似度Sim(Q<sup>exp</sup>，d)的大小降序排列输出。
地址	200444 上海市宝山区上大路99号