发明名称 中文分词暨词性标注系统及其方法
摘要 明系一种中文分词暨词性标注系统及其方法,其包含文句输入与前处理模组、词性相依m-词切分图构造模组、基于语言模型与正规化权值之最佳路径决定模组以及分词暨词性标注输出模组,文句输入与前处理模组接收未标注之中文序列资讯,而词性相依m-词切分图构造模组则构造出中文文句资讯之全切分图并扩展为复数个词性相依m-词切分图,最佳路径决定模组系找出各词性相依m-词切分图中的最佳路径权值,并找出具有最大正规化权值之最终最佳路径,最后,输出模组则依据最终最佳路径上所经之节点以格式化字串输出对应之分词及其词性作为结果。
申请公布号 TWI518526 申请公布日期 2016.01.21
申请号 TW103101552 申请日期 2014.01.16
申请人 中华电信股份有限公司 发明人 王骏发;陈彦佑;陈伯炜;蔡俊裕;陈保清
分类号 G06F17/27(2006.01);G06F17/28(2006.01) 主分类号 G06F17/27(2006.01)
代理机构 代理人 李保禄
主权项 一种中文分词暨词性标注系统,包含:一文句输入与前处理模组,用以接收未标注之中文序列资讯,其中该中文文句资讯更含复数个中文字元;一词性相依m-词切分图构造模组,构造出该中文文句资讯之全切分图,并将该全切分图扩展为复数个词性相依m-词切分图;一基于语言模型与正规化权值之最佳路径决定模组,找出各该词性相依m-词切分图中的最佳路径权值,并找出具有最大正规化权值之最终最佳路径;以及一分词暨词性标注输出模组,依据该最终最佳路径上所经之节点以格式化字串输出对应之分词及其词性作为结果。
地址 桃园市杨梅区电研路99号