发明名称 |
一种音节粒度的藏语句法组块识别方法及装置 |
摘要 |
本发明涉及一种音节粒度的藏语句法组块识别方法及装置,属于计算机应用技术中的机器翻译技术领域。本发明首先通过对原始藏语语料进行预处理,删除其中非藏语语言文本,然后利用预先训练好的句法标记识别模型M<sub>1</sub>进行识别得到句法标记类型,接下来对句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;最后对标准语料采用预先训练好的句法组块识别模型M<sub>2</sub>直接对功能组块进行组块识别。对比现有技术,本发明能够不经过分词和词性标注直接对功能组块进行识别,减少了预处理所需的时间空间花费同时避免了因分词与词性标注的不准确而造成的对功能组块识别效果降低。 |
申请公布号 |
CN105426355A |
申请公布日期 |
2016.03.23 |
申请号 |
CN201510711234.1 |
申请日期 |
2015.10.28 |
申请人 |
北京理工大学 |
发明人 |
史树敏;王天航;黄河燕;龙从军 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种音节粒度的藏语句法组块识别方法,其特征在于,包括以下步骤:步骤一:对输入语料进行文本预处理得到规范化句子语料S;步骤二:对S采用预先训练好的句法标记识别模型M<sub>1</sub>进行识别得到句法标记类型;步骤三:对步骤二得到的句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;步骤四:对步骤三得到的标准语料采用预先训练好的句法组块识别模型M<sub>2</sub>进行组块识别得到组块类型识别结果。 |
地址 |
100081 北京市海淀区中关村南大街5号北京理工大学 |