发明名称 最大熵模拟中数据稀疏和数据过拟合的统一处理
摘要 提供一种统计模拟的方法,其包括建立统计模型和在特征选择和参数最优化期间,为统计学模型的建立结合高斯先验。
申请公布号 CN101004912B 申请公布日期 2012.10.10
申请号 CN200610171941.7 申请日期 2006.11.03
申请人 罗伯特·博世有限公司 发明人 翁富良;赵林
分类号 G06F17/27(2006.01)I;G10L15/00(2006.01)I;G10L15/08(2006.01)I;G10L15/14(2006.01)I;G10L15/06(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 永新专利商标代理有限公司 72002 代理人 韩宏
主权项 1.一种模拟会话对话系统的口语的方法,包括:通过概率依存模型模拟该口语的依存关系;在所述概率依存模型的特征选择和参数优化期间结合高斯先验;解析词序列,该解析包括使用图表解析技术,自底向上系统地检索全部头词对;以及在该检索的每一步,基于所述概率依存模型计算每一对的概率分数,并为每个范围保持n个最佳候选对,其中,应用所述概率依存模型以获得覆盖从词i到词j的范围(i,j)的解析的依存<img file="FSB00000824318700011.GIF" wi="101" he="65" />并且所述概率依存模型被计算为<maths num="0001"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>k</mi><mo>+</mo><mn>1</mn><mo>,</mo><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>L</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>|</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>,</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>k</mi><mo>+</mo><mn>1</mn><mo>,</mo><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>*</mo><msup><mi>e</mi><mrow><mi>MI</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>,</mo><msub><mover><mi>L</mi><mo>&OverBar;</mo></mover><mrow><mi>k</mi><mo>+</mo><mn>1</mn><mo>,</mo><mi>j</mi></mrow></msub><mo>)</mo></mrow></mrow></msup><mo>;</mo></mrow></math>]]></maths>(i,k)是所述范围(i,j)的第一子范围;(k+1,j)是所述范围(i,j)的第二子范围;L<sub>i,j</sub>是l<sub>i,j</sub>,w<sup>i,k</sup>和w<sup>k+1,j</sup>的三元组;w<sup>i,k</sup>是表示所述第一子范围的头词;w<sup>k+1,j</sup>是表示所述第二子范围的头词;l<sub>i,j</sub>是连接这两个头词的上一个依存关系;<img file="FSB00000824318700013.GIF" wi="191" he="52" />是对表征在所述第一子范围和所述第二子范围之间的冗余信息的共有信息的调整;并且所述第一子范围和所述第二子范围被迭代分解直到到达叶子节点。
地址 美国伊利诺斯