发明名称 词性标注模型训练装置、词性标注系统及其方法
摘要 本发明涉及一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学单元,用于对转换的训练数据进行机器学,从而生成词性标注模型。以及涉及一种词性标注模型训练方法。以及一种词性标注系统及其方法,系统包括:词性标注模型训练装置,用于通过对词典中的词执行直接成分分析,以训练生成词性标注模型;以及基于模型的词性标注装置,用于利用词性标注模型对未登录词进行词性标注。根据本发明的系统,可以根据现有的文本信息,对未登录词的词性进行准确标注,提高了文本信息处理的效率。
申请公布号 CN101539907A 申请公布日期 2009.09.23
申请号 CN200810085463.7 申请日期 2008.03.19
申请人 日电(中国)有限公司 发明人 胡长建;赵凯;邱立坤
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 中科专利商标代理有限责任公司 代理人 罗松梅
主权项 1.一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。
地址 100007北京市东城区东四十条甲22号南新仓国际大厦B栋12层1222室