一种问答系统中基于语义的相似度分析方法、系统及应用,申请号CN201410849923.4-传众专利搜索

发明名称	一种问答系统中基于语义的相似度分析方法、系统及应用
摘要	本发明适用于问答系统中语义相似度计算领域，提供了一种问答系统中基于语义的相似度分析方法，所述相似度分析方法包括以下步骤：A、QICA对输入的问句进行信息分类；B、QICA对输入的问句进行信息分类标注；C、对输入的问句语义相似度进行分析计算。通过抽取问句的语义关键词实现问句的语义分析和相似度分析，提高了语义分析的效率，适于海量数据的CQA系统，检索结果的准确率高。
申请公布号	CN104572618A	申请公布日期	2015.04.29
申请号	CN201410849923.4	申请日期	2014.12.31
申请人	哈尔滨工业大学深圳研究生院	发明人	范士喜;陈丽丹;韩喜双
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	深圳市科吉华烽知识产权事务所(普通合伙) 44248	代理人	刘显扬;黄晓笛
主权项	一种问答系统中基于语义的相似度分析方法，其特征在于，所述相似度分析方法包括以下步骤：A、QICA对输入的问句进行信息分类；B、QICA对输入的问句进行信息分类标注；C、对输入的问句语义相似度进行分析计算，公式：SimSemantic(A，B)＝Sim(b(A)，b(B))a+(1‑a)SimT(W(B)，W(A))，其中，W(X)表示问句X的类型；SimT(t<sub>1</sub>，t<sub>2</sub>)表示两个问句类型的相似度，其公式：<img file="FDA0000649643070000011.GIF" wi="762" he="159" />其中，C(t<sub>j</sub>)表示在一个问句集中，CSim(t<sub>i</sub>，t<sub>j</sub>)表示具有相同语义且类型分别属于t<sub>i</sub>和t<sub>j</sub>的问句对的个数，a是一个比重参数，其sim(S<sub>1</sub>，S<sub>2</sub>)‑＞[0，1]中的S<sub>1</sub>，S<sub>2</sub>是经过分词并带有词性标记的序列，其公式：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mfenced open='' close=''><mtable><mtr><mtd><mi>sim</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>α</mi><mn>1</mn></msub><mo></mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mo>\|</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>\|</mo></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mn>2</mn></msub><mo></mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimW</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>+</mo><msub><mi>α</mi><mn>3</mn></msub><mo>*</mo><mrow><mo>(</mo><mfrac><mrow><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mi>CSimP</mi><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>,</mo><msub><mi>S</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000649643070000012.GIF" wi="1489" he="284" /></maths>CSimW(S<sub>1</sub>，S<sub>2</sub>)表示两个序列包含相同词的个数，CSimP(S<sub>1</sub>，S<sub>2</sub>)表示相同词性的个数，L(S)表示序列长度。
地址	518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区