发明名称 |
用于识别一种或者多种自然语言中的单词及其词性的系统、方法 |
摘要 |
本发明用于识别在词典数据库中不存在的一个或者多个单词。如果没有获得有效的(合法的)单词,则进行统计处理,检查该单词中的两个或者多个字符的子集的一个或者多个序列,来判断该单词为有效(合法)单词的概率。在另外的实施例中,本发明包括去前缀处理、去后缀处理、词根处理和/或合并处理。 |
申请公布号 |
CN100587686C |
申请公布日期 |
2010.02.03 |
申请号 |
CN03811430.5 |
申请日期 |
2003.04.21 |
申请人 |
国际商业机器公司 |
发明人 |
杨加·帕克 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
中国国际贸易促进委员会专利商标事务所 |
代理人 |
屠长存 |
主权项 |
1.一种识别在词典数据库中不存在的一个或者多个单词的系统,包括一个或者多个中央处理单元和一个或者多个存储器,以及:词根处理装置,从所述词典数据库获取有关词根的词根信息,该词根为没有前缀和后缀的单词之一;以及统计处理装置,用于:如果在词典数据库中找不到该词根,则通过将包括该词根中的一个或多个字符的一个或多个子集与真实单词的子集相比较,来判断该词根为先前不存在的真实单词的概率。 |
地址 |
美国纽约 |