发明名称 | 基于字形相似度的Unicode传统蒙文规范化方法 | ||
摘要 | 基于字形相似度的Unicode传统蒙文规范化方法,涉及文本规范化、传统蒙文编码等领域。通过遍历输入的Unicode编码的传统蒙文文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式,得到规范化的传统蒙文文本。能有效对Unicode编码的传统蒙文同形词进行规范化,降低统计语言模型在传统蒙文中的数据稀疏性。利用Unicode编码的传统蒙文语料库统计Unicode传统蒙文词汇表,对词汇表中的各个词语依据Unicode传统蒙文同形字母表和图像匹配算法生成同形词,通过归并等价类得到同形词表。Unicode传统蒙文同形字母表包括22条同形替换规则。 | ||
申请公布号 | CN106469139A | 申请公布日期 | 2017.03.01 |
申请号 | CN201610895706.8 | 申请日期 | 2016.10.14 |
申请人 | 厦门大学 | 发明人 | 史晓东;王博立 |
分类号 | G06F17/22(2006.01)I | 主分类号 | G06F17/22(2006.01)I |
代理机构 | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人 | 马应森 |
主权项 | 基于字形相似度的Unicode传统蒙文规范化方法,其特征在于包括以下步骤:1)接收Unicode编码的传统蒙文文本;2)遍历输入文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式;3)输出替换后的传统蒙文文本。 | ||
地址 | 361005 福建省厦门市思明南路422号 |