发明名称 一种问答系统中基于语义的相似度分析方法、系统及应用
摘要 本发明适用于问答系统中语义相似度计算领域,提供了一种问答系统中基于语义的相似度分析方法,所述相似度分析方法包括以下步骤:A、QICA对输入的问句进行信息分类;B、QICA对输入的问句进行信息分类标注;C、对输入的问句语义相似度进行分析计算。通过抽取问句的语义关键词实现问句的语义分析和相似度分析,提高了语义分析的效率,适于海量数据的CQA系统,检索结果的准确率高。
申请公布号 CN104572618A 申请公布日期 2015.04.29
申请号 CN201410849923.4 申请日期 2014.12.31
申请人 哈尔滨工业大学深圳研究生院 发明人 范士喜;陈丽丹;韩喜双
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 44248 代理人 刘显扬;黄晓笛
主权项 一种问答系统中基于语义的相似度分析方法,其特征在于,所述相似度分析方法包括以下步骤:A、QICA对输入的问句进行信息分类;B、QICA对输入的问句进行信息分类标注;C、对输入的问句语义相似度进行分析计算,公式:SimSemantic(A,B)=Sim(b(A),b(B))*a+(1‑a)*SimT(W(B),W(A)),其中,W(X)表示问句X的类型;SimT(t<sub>1</sub>,t<sub>2</sub>)表示两个问句类型的相似度,其公式:<img file="FDA0000649643070000011.GIF" wi="762" he="159" />其中,C(t<sub>j</sub>)表示在一个问句集中,CSim(t<sub>i</sub>,t<sub>j</sub>)表示具有相同语义且类型分别属于t<sub>i</sub>和t<sub>j</sub>的问句对的个数,a是一个比重参数,其sim(S<sub>1</sub>,S<sub>2</sub>)‑>[0,1]中的S<sub>1</sub>,S<sub>2</sub>是经过分词并带有词性标记的序列,其公式:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mfenced open='' close=''><mtable><mtr><mtd><mi>sim</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>&alpha;</mi><mn>1</mn></msub><mo>*</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><msub><mi>&alpha;</mi><mn>2</mn></msub><mo>*</mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>+</mo><msub><mi>&alpha;</mi><mn>3</mn></msub><mo>*</mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000649643070000012.GIF" wi="1489" he="284" /></maths>CSimW(S<sub>1</sub>,S<sub>2</sub>)表示两个序列包含相同词的个数,CSimP(S<sub>1</sub>,S<sub>2</sub>)表示相同词性的个数,L(S)表示序列长度。
地址 518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区