发明名称 |
有效语言识别 |
摘要 |
提出一种对自然语言文本进行语言识别的系统和方法。该系统包括用于自然语言中找到的一列字符的计分预期字符计数和方差。在语言识别中存储预期字符计数和方差以用于待考虑的多个语言。在运行时间中,基于对实际和预期字符计数的比较识别用于文本样本的一个或多个语言。本方法可结合用于文本样本中字符的统一字符编码范围的上行分析以限制所考虑的语言的数目。此外,可在下行处理中使用n元语法方法以从通过本系统和方法识别出的语言中选择最大可能语言。 |
申请公布号 |
CN1819018A |
申请公布日期 |
2006.08.16 |
申请号 |
CN200610005447.3 |
申请日期 |
2006.01.16 |
申请人 |
微软公司 |
发明人 |
K·R·鲍威尔;P·M·施密德;W·D·拉姆赛 |
分类号 |
G10L15/06(2006.01);G10L15/00(2006.01);G10L15/08(2006.01) |
主分类号 |
G10L15/06(2006.01) |
代理机构 |
上海专利商标事务所有限公司 |
代理人 |
张政权 |
主权项 |
1.一种识别文本的自然语言的方法,包括如下步骤:接收以已知自然语言书写的文本文档;对所述文本文档中的唯一特征的出现事件进行计数,以生成预期特征计数;以及使用概率分布和所述预期特征计数,按照实际特征出现事件的函数来生成概率值。 |
地址 |
美国华盛顿州 |