发明名称 |
词性标注模型训练装置、词性标注系统及其方法 |
摘要 |
本发明涉及一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学单元,用于对转换的训练数据进行机器学,从而生成词性标注模型。以及涉及一种词性标注模型训练方法。以及一种词性标注系统及其方法,系统包括:词性标注模型训练装置,用于通过对词典中的词执行直接成分分析,以训练生成词性标注模型;以及基于模型的词性标注装置,用于利用词性标注模型对未登录词进行词性标注。根据本发明的系统,可以根据现有的文本信息,对未登录词的词性进行准确标注,提高了文本信息处理的效率。 |
申请公布号 |
CN101539907A |
申请公布日期 |
2009.09.23 |
申请号 |
CN200810085463.7 |
申请日期 |
2008.03.19 |
申请人 |
日电(中国)有限公司 |
发明人 |
胡长建;赵凯;邱立坤 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
中科专利商标代理有限责任公司 |
代理人 |
罗松梅 |
主权项 |
1.一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。 |
地址 |
100007北京市东城区东四十条甲22号南新仓国际大厦B栋12层1222室 |