发明名称 在自然语言解析器中识别和解析常混词的方法和系统
摘要 本发明提供了一种用于在自然语言解析器中识别和解常混词方法和系统。在一个最佳实施例中,计算机系统使用从潜在混淆词(包括输入文本中各词当中的一个)到可能欲用词的映射关系来解析由二个或多个词构成的输入文体。计算机系统首先对包括潜在混淆词的输入文本的每个词识别出可能的词类。然后计算机系统对于可能的欲用词识别出可能的词类。最后,计算机系统对于识别出的词在应用语法规则,从而产生出一个完全的语法树,它包含可能欲用词的可能词类。
申请公布号 CN1172992A 申请公布日期 1998.02.11
申请号 CN97113939.3 申请日期 1997.06.24
申请人 微软公司 发明人 斯蒂芬·达罗·理查德森;乔治·E·海多恩
分类号 G06F17/27 主分类号 G06F17/27
代理机构 中国国际贸易促进委员会专利商标事务所 代理人 范本国
主权项 1.在计算机中使用语法规则和含有多个条目的词典解析含有一个或多个词的自然语言输入文本段的方法,每个词典条目对应于自然语言中的一个词并对该词指定一个或多个可能的词类,该方法包括以下步骤:(a)建立一个解析图,用于包含代表输入文本段及其直接解析结果的解析树;(b)对出现在输入文本段中的每个词,在解析图中为该词创立词类记录,指定由词典为该词指定的词类;(c)识别出在输入文本段中出现的常与其他词混淆的词;(d)在解析图中为识别出的词建立词类记录,为与识别出的词常混淆的词指定由词典条目指定的词类;(e)对步骤(b)和(d)中建立的词类记录应用语法规则。
地址 美国华盛顿