发明名称 | 从连续的中文文本中分离出中文词的方法 | ||
摘要 | 本发明一个处理过程,该过程用于机器分析连续的中文文本并分离出组成文本的词。该处理过程使用一个词典、一些处理标点符号的直接规则、识别一串中文文本中全部词和通过依次更严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法,以及解除多义性的方法。 | ||
申请公布号 | CN1100542A | 申请公布日期 | 1995.03.22 |
申请号 | CN94101382.0 | 申请日期 | 1994.02.18 |
申请人 | 国际商业机器公司 | 发明人 | 安东尼奥·扎莫拉 |
分类号 | G06F15/20 | 主分类号 | G06F15/20 |
代理机构 | 中国国际贸易促进委员会专利商标事务所 | 代理人 | 范本国 |
主权项 | 1、在一个数据处理系统中,用于从连续文本中分离词的方法,其特点在于包含下列步骤:读取输入文本字串;识别出输入字串中的所有词;完成第一邻近性处理;完成恢复处理;完成数字处理;完成第二邻近性处理;输出带有指示间隔的单个词序列。 | ||
地址 | 美国纽约 |