主权项 |
正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤:步骤1,对文本数据进行正、反向训练,得到检索模板;步骤1.1,对符合检索意愿的文本,通过句子分析及特征提取,得到符合检索意愿文本的词法、语法和句义特征,即正向训练过程,符合检索意愿的每个特征的概率表示为P(t<sub>i</sub>|R<sup>+</sup>),其中t<sub>i</sub>表示提取的第i个语言特征,R<sup>+</sup>表示符合检索意愿;对违背检索意愿的文本,通过句子分析及特征提取,得到违背检索意愿文本的词法、语法和句义特征,即反向训练过程,违背检索意愿的每个特征的概率表示为P(t<sub>i</sub>|R<sup>‑</sup>),其中t<sub>i</sub>表示提取的第i个语言特征,R<sup>‑</sup>表示违背检索意愿;P(t<sub>i</sub>|R<sup>+</sup>)和P(t<sub>i</sub>|R<sup>‑</sup>)的计算方法如下:<maths num="0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>λ</mi><mo>)</mo></mrow><mfrac><mrow><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow></mrow><mrow><munder><mo>Σ</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>∈</mo><msup><mi>R</mi><mo>+</mo></msup></mrow></munder><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>+</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mi>λ</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000011.GIF" wi="884" he="197" /></maths><maths num="0002"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>λ</mi><mo>)</mo></mrow><mfrac><mrow><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow></mrow><mrow><munder><mo>Σ</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>∈</mo><msup><mi>R</mi><mo>-</mo></msup></mrow></munder><mi>F</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><msup><mi>R</mi><mo>-</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mi>λ</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000012.GIF" wi="885" he="198" /></maths>其中,λ是一个与文本无关的平滑参数,且0<λ<1,F(t<sub>i</sub>|R<sup>±</sup>)表示符合检索意愿R<sup>+</sup>和违背检索意愿R<sup>‑</sup>中特征t<sub>i</sub>出现的频率,P(t<sub>i</sub>|D)表示文本D中特征t<sub>i</sub>出现的频率;步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征;步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库,其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果;步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R<sup>+</sup>|D)>P(R<sup>‑</sup>|D)的文本作为检索结果,其中R<sup>+</sup>表示符合检索意愿,R<sup>—</sup>表示违背检索意愿,P(R<sup>±</sup>|D)表示文本D符合和违背检索意愿的概率值;关于文本D的正、反向支持概率计算公式为:<maths num="0003"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>+</mo></msup><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>∈</mo><mi>D</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>+</mo></msup><mo>|</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000013.GIF" wi="653" he="126" /></maths><maths num="0004"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>-</mo></msup><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>∈</mo><mi>D</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>|</mo><mi>D</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msup><mi>R</mi><mo>-</mo></msup><mo>|</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000893075220000014.GIF" wi="654" he="124" /></maths>其中P(t<sub>i</sub>|D)为特征t<sub>i</sub>在D中的出现概率,P(R<sup>+</sup>|t<sub>i</sub>)和P(R<sup>‑</sup>|t<sub>i</sub>)为在特征t<sub>i</sub>出现的条件下事件R<sup>+</sup>或R<sup>‑</sup>发生的概率,其中P(R<sup>+</sup>|t<sub>i</sub>)和P(R<sup>‑</sup>|t<sub>i</sub>)由步骤1.2中检索模板计算得出。步骤2.2,对步骤1.1中得到的词法、语法和句义特征,给每类特征项分别赋予权重α、β、λ;步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高到低进行排序,得到检索结果。 |