发明名称 中文文本中的字词分割方法
摘要 本发明提供了用于从一系列自然语言字符中选择可能是字词的字符组合的设备。该设备对于多个字符的每一个使用了(a)出现在以该字符开始的字词中的第二位置的字符和(b)该字符出现在字词中的位置的指示符。对于在该序列中存在的字符的多个连续组合中的每一个,该设备确定出现在该组合的第二位置的字符是否被指示为出现在以该字符为组合中的第一位置的那些字词中。如果是的话,该设备确定该组合的每个字符是否显示在字词中出现在它在该组合中的那个位置上。如果是的话,设备确定该字符组合可能是一个字词。在某些实施例中,设备执行字符组合与有效字词表的比较以确定该字符组合是否是一字词。
申请公布号 CN1114165C 申请公布日期 2003.07.09
申请号 CN99802944.0 申请日期 1999.01.13
申请人 微软公司 发明人 吴安迪;斯蒂芬·D·里卡德松;蒋自新
分类号 G06F17/28 主分类号 G06F17/28
代理机构 中科专利商标代理有限责任公司 代理人 朱进桂
主权项 1.一种计算机,其特征在于包括:存储器,它包括: 词汇知识库,它具有与在字词中字符的位置相关的字符信息;指令,用以从一系列自然语言字符中选择可以是字词的字符组合;处理器,它可与存储器一起操作,并适合于处理指令和词汇知识库以致:确定出现在一个组合的第二位置的字符是否被表示将出现在以该组合的第一位置出现的字符开始的字词中;在此如果确定在该组合第二位置出现的字符被表示将出现在以该组合的第一位置中出现的字符开始的所述字词中,那么确定该组合的每个字符是否表示将出现在所述字词中的一位置上,该位置就是该字符在该组合中所处的位置;如果确定该组合的每个字符被表示将出现在所述字词中,并且它出现在所述字词中的位置与它出现在该组合中的位置相同,则确定该字符组合可能是一个字词。
地址 美国华盛顿