发明名称 | 中文语句分词方法及其在中文查错系统中的应用 | ||
摘要 | 本发明描述了一种能够有效地检测出中文文本中错误的方案。通过把经常出现的错误、人名、地名、组织名、数词或数量与量词的组合,与常规字典中常用词一样,看成是一般的分词单元,并为它们分配合适的权值,把动态规划方法用于中文查错CEC系统,来对语句进行最为合适的分词处理。该方法可以使CEC系统获得最高的错误检出率,而同时又能够使其误报率在类似的系统中保持为最低。 | ||
申请公布号 | CN1193779A | 申请公布日期 | 1998.09.23 |
申请号 | CN97103125.8 | 申请日期 | 1997.03.13 |
申请人 | 国际商业机器公司 | 发明人 | 裘照明;杨力平 |
分类号 | G06F17/20 | 主分类号 | G06F17/20 |
代理机构 | 中国国际贸易促进委员会专利商标事务所 | 代理人 | 于静 |
主权项 | 1.一种对中文语句进行分词的方法,其特征在于包括以下步骤:除常规字典中词之外,定义多个分词单元类别;相对常规字典中词的权值,为所述分词单元类别分配合适的权值;以及使用动态规划方法,选择满足一定条件的分词结果。 | ||
地址 | 美国纽约 |