发明名称 正反向训练去混淆文本检索方法
摘要 本发明涉及一种基于正反向训练的去混淆文本检索方法,属于计算机科学与信息检索技术领域。本发明首先对符合检索意愿和违背检索意愿的文本进行语言特征提取,训练得到检索模板;进而利用该检索模板,对待检索文本提取的语言特征库进行检索,得到检出文本,并按照与检索模板相似度由高到低对检出文本进行排序;最终在检出文本中,使用符合检索意愿和违背检索意愿的文本,反馈式更新检索模板,重新检索,得到优化检索结果。与现有技术相比,本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。
申请公布号 CN103150371B 申请公布日期 2016.06.29
申请号 CN201310074209.8 申请日期 2013.03.08
申请人 北京理工大学 发明人 罗森林;韩磊;潘丽敏;魏超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤:步骤1,对文本数据进行正、反向训练,得到检索模板;步骤1.1,对符合检索意愿的文本,通过句子分析及特征提取,得到符合检索意愿文本的词法、语法和句义特征,即正向训练过程,符合检索意愿的每个特征的概率表示为P(t<sub>i</sub>|R<sup>+</sup>),其中t<sub>i</sub>表示提取的第i个语言特征,R<sup>+</sup>表示符合检索意愿;对违背检索意愿的文本,通过句子分析及特征提取,得到违背检索意愿文本的词法、语法和句义特征,即反向训练过程,违背检索意愿的每个特征的概率表示为P(t<sub>i</sub>|R<sup>‑</sup>),其中t<sub>i</sub>表示提取的第i个语言特征,R<sup>‑</sup>表示违背检索意愿;P(t<sub>i</sub>|R<sup>+</sup>)和P(t<sub>i</sub>|R<sup>‑</sup>)的计算方法如下:<maths num="0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&lambda;</mi><mo>)</mo></mrow><mfrac><mrow><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow></mrow><mrow><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><msup><mi>R</mi><mo>+</mo></msup></mrow></munder><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mi>&lambda;</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000011.GIF" wi="884" he="197" /></maths><maths num="0002"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&lambda;</mi><mo>)</mo></mrow><mfrac><mrow><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow></mrow><mrow><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><msup><mi>R</mi><mo>-</mo></msup></mrow></munder><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mi>&lambda;</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000012.GIF" wi="885" he="198" /></maths>其中,λ是一个与文本无关的平滑参数,且0&lt;λ&lt;1,F(t<sub>i</sub>|R<sup>±</sup>)表示符合检索意愿R<sup>+</sup>和违背检索意愿R<sup>‑</sup>中特征t<sub>i</sub>出现的频率,P(t<sub>i</sub>|D)表示文本D中特征t<sub>i</sub>出现的频率;步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征;步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库,其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果;步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R<sup>+</sup>|D)&gt;P(R<sup>‑</sup>|D)的文本作为检索结果,其中R<sup>+</sup>表示符合检索意愿,R<sup>—</sup>表示违背检索意愿,P(R<sup>±</sup>|D)表示文本D符合和违背检索意愿的概率值;关于文本D的正、反向支持概率计算公式为:<maths num="0003"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>+</mo></msup><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><mi>D</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>+</mo></msup><mo>|</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000013.GIF" wi="653" he="126" /></maths><maths num="0004"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>-</mo></msup><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><mi>D</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>-</mo></msup><mo>|</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000014.GIF" wi="654" he="124" /></maths>其中P(t<sub>i</sub>|D)为特征t<sub>i</sub>在D中的出现概率,P(R<sup>+</sup>|t<sub>i</sub>)和P(R<sup>‑</sup>|t<sub>i</sub>)为在特征t<sub>i</sub>出现的条件下事件R<sup>+</sup>或R<sup>‑</sup>发生的概率,其中P(R<sup>+</sup>|t<sub>i</sub>)和P(R<sup>‑</sup>|t<sub>i</sub>)由步骤1.2中检索模板计算得出。步骤2.2,对步骤1.1中得到的词法、语法和句义特征,给每类特征项分别赋予权重α、β、λ;步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高到低进行排序,得到检索结果。
地址 100081 北京市海淀区中关村南大街5号