发明名称 一种自动拆分英文复合词组的系统和方法
摘要 一种自动拆分英文复合词组的系统和方法,其中该系统包括:词组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分;基于文本分类的机器学模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。
申请公布号 CN101576876B 申请公布日期 2011.01.05
申请号 CN200910078791.9 申请日期 2009.03.03
申请人 杜小勇 发明人 杜小勇;刘红岩;何军;李直旭
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京中创阳光知识产权代理有限责任公司 11003 代理人 尹振启
主权项 一种自动拆分英文复合词组的系统包括:词组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分,该模块包括:构造分析子模块,用于分析各个复合词组可能正确的构造有哪几种;概率计算子模块,用于对照简单词组表中是否包含有各个拆分出来的词组来给出这个复合词组关于每种构造的正确概率;比较子模块,用于对每一个复合词组的每一种可能构造的正确概率进行比较,得出最为正确的概率拆分方法;判断子模块,用于将在比较子模块中得到的最为正确的概率拆分方法的正确概率值与预定阀值进行比较,如果大于等于阀值则认为此方法即为正确拆分方法;训练集子模块,用于将正确拆分的复合词组及其正确拆分类型作为训练集,而将尚未被正确拆分的复合词组作为进一步待处理对象;基于文本分类的机器学习模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分,该模块包括:预测模型建模子模块,用于利用训练集寻求拆分类型并且利用词组中词语的关系建立预测模型;预测子模块,用于利用建立起来的预测模型对基于语言学规则的概率模型模块中无法正确拆分的复合词组进行正确拆分类型预测。
地址 100872 北京市海淀区中关村大街59号中国人民大学信息学院