发明名称 |
一种问答系统中基于语义的相似度分析方法、系统及应用 |
摘要 |
本发明适用于问答系统中语义相似度计算领域,提供了一种问答系统中基于语义的相似度分析方法,所述相似度分析方法包括以下步骤:A、QICA对输入的问句进行信息分类;B、QICA对输入的问句进行信息分类标注;C、对输入的问句语义相似度进行分析计算。通过抽取问句的语义关键词实现问句的语义分析和相似度分析,提高了语义分析的效率,适于海量数据的CQA系统,检索结果的准确率高。 |
申请公布号 |
CN104572618A |
申请公布日期 |
2015.04.29 |
申请号 |
CN201410849923.4 |
申请日期 |
2014.12.31 |
申请人 |
哈尔滨工业大学深圳研究生院 |
发明人 |
范士喜;陈丽丹;韩喜双 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
深圳市科吉华烽知识产权事务所(普通合伙) 44248 |
代理人 |
刘显扬;黄晓笛 |
主权项 |
一种问答系统中基于语义的相似度分析方法,其特征在于,所述相似度分析方法包括以下步骤:A、QICA对输入的问句进行信息分类;B、QICA对输入的问句进行信息分类标注;C、对输入的问句语义相似度进行分析计算,公式:SimSemantic(A,B)=Sim(b(A),b(B))*a+(1‑a)*SimT(W(B),W(A)),其中,W(X)表示问句X的类型;SimT(t<sub>1</sub>,t<sub>2</sub>)表示两个问句类型的相似度,其公式:<img file="FDA0000649643070000011.GIF" wi="762" he="159" />其中,C(t<sub>j</sub>)表示在一个问句集中,CSim(t<sub>i</sub>,t<sub>j</sub>)表示具有相同语义且类型分别属于t<sub>i</sub>和t<sub>j</sub>的问句对的个数,a是一个比重参数,其sim(S<sub>1</sub>,S<sub>2</sub>)‑>[0,1]中的S<sub>1</sub>,S<sub>2</sub>是经过分词并带有词性标记的序列,其公式:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mfenced open='' close=''><mtable><mtr><mtd><mi>sim</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>α</mi><mn>1</mn></msub><mo>*</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mn>2</mn></msub><mo>*</mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>+</mo><msub><mi>α</mi><mn>3</mn></msub><mo>*</mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000649643070000012.GIF" wi="1489" he="284" /></maths>CSimW(S<sub>1</sub>,S<sub>2</sub>)表示两个序列包含相同词的个数,CSimP(S<sub>1</sub>,S<sub>2</sub>)表示相同词性的个数,L(S)表示序列长度。 |
地址 |
518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区 |