发明名称 |
一种自动拆分英文复合词组的系统和方法 |
摘要 |
一种自动拆分英文复合词组的系统和方法,其中该系统包括:词组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分;基于文本分类的机器学模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。 |
申请公布号 |
CN101576876A |
申请公布日期 |
2009.11.11 |
申请号 |
CN200910078791.9 |
申请日期 |
2009.03.03 |
申请人 |
杜小勇 |
发明人 |
杜小勇;刘红岩;何军;李直旭 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京中创阳光知识产权代理有限责任公司 |
代理人 |
尹振启 |
主权项 |
1、一种自动拆分英文复合词组的系统包括:词组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分;基于文本分类的机器学习模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。 |
地址 |
100872北京市海淀区中关村大街59号中国人民大学信息学院 |