发明名称 |
一种未登录词的识别方法 |
摘要 |
本发明公开了一种未登录词的识别方法,属于计算机科学中的自然语言处理技术领域。在未登录词的检测阶段,先用多重规则过滤重复串集合,然后使用统计模型作为主体统计框架,将尽可能多的特征融入到框架内,确保未登录词检测具有较高的准确率和召回率;在未登录词词性猜测阶段,基于统计模型框架,在通用特征的基础上,通过引入有效的新特征,来提高未登录词词性猜测的准确率。本方法对比现有技术,不受内存规模的限制,扩大了未登录词的检测范围,有效减少了未登录词检测过程中的漏召问题,尤其适合用于大规模语料的未登录词的识别。 |
申请公布号 |
CN101751386B |
申请公布日期 |
2012.05.23 |
申请号 |
CN200910265839.7 |
申请日期 |
2009.12.28 |
申请人 |
华建机器翻译有限公司;北京理工大学 |
发明人 |
黄河燕;史树敏;张海军 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京理工大学专利中心 11120 |
代理人 |
张利萍 |
主权项 |
一种未登录词的识别方法,该方法适用于针对大规模语料的未登陆词的识别,其特征在于包括以下步骤:步骤一、使用基于递增n‑gram模型和散列数据结构,提出语料的候选重复串;然后,对候选重复串进行过滤,以减少垃圾字串的生成,提高重复串提取效率;最后,使用外部排序方法取得最终的重复串集合,该集合用于构成未登录词的候选集,检测到的未登录词都来源于这个集合;步骤二、对步骤一得到的重复串集合进行子父串归并、停用字或词过滤、命名实体过滤和词典过滤;然后,使用统计模型对处理后的重复串集合进行检测,获得未登录词集合;其中,所述命名实体过滤,是指将简单命名实体从候选词集合中预先滤去,其中简单命名实体包括:时间、货币、人名以及地名;步骤三、组合各种有效的内部特征,使用统计模型对经步骤二得到的未登录词集合中的词语进行词性猜测;所述各种有效的内部特征是指用于统计模型训练和解码的特征,包括,未登陆词的词条本身、组成字符、词缀、词长;所述步骤一中,对候选重复串进行过滤时,采用基于低频字符的全局剪枝算法和短串过滤长串的逐层剪枝方法实现。 |
地址 |
100097 北京市海淀区北四环中路257号科群大厦 |