发明名称 在输入法词库中添加未登录词的方法及文字输入装置
摘要 本发明公开了一种在输入法词库中添加未登录词的方法及文字输入装置,使得输入法程序可从用户输入的汉字序列中自动识别出其中的未登录词,将其添加到自身的词库中。所述方法包括步骤:检测用户输入的文字序列,根据其中的间隔符号提取序列中包含的文字片断;识别所述文字片断中包含的未登录词,将该未登录词与其对应的键值编码序列关联保存到输入法的词库中。所述文字输入装置包括文字片断获取模块和未登录词识别模块。本发明在不改变用户输入惯的前提下,无需用户进行任何操作,即可自动将用户输入的文字序列中包含的未登录词添加到输入法词库中。
申请公布号 CN101154226B 申请公布日期 2011.02.16
申请号 CN200610152266.3 申请日期 2006.09.27
申请人 腾讯科技(深圳)有限公司 发明人 张会鹏
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06K9/20(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 谢安昆;宋志强
主权项 一种在输入法词库中添加未登录词的方法,其特征在于,包括步骤:A、检测用户输入的文字序列,根据其中的间隔符号提取序列中包含的文字片断;B、识别所述文字片断中包含的未登录词,将该未登录词与其对应的键值编码序列关联保存到输入法的词库中;所述步骤B具体包括步骤:对所述文字片断进行原子切分,所述原子为分词的最小单位;对提取出的文字片断进行从前往后的扫描,按顺序切分出其中所有的原子并保存到一个数组中,之后根据数组中存储的原子个数建立初始的切分词图,将其中每一个原子标注为一个切分单元,在切分词图中,在原子两侧的节点之间添加一条圆弧用以标注该切分单元;根据当前输入法词库中包含的词汇,识别出该切分出的原子序列中包含的现有词汇,将其标注为切分单元,在切分词图中,在查找出的现有词汇两侧的节点之间添加一条圆弧用以标注该切分单元;并且根据预先确定的隐马尔科夫模型参数,利用Viterbi算法对所述原子序列进行角色标注,以此识别出所述原子序列中包含的未登录词,则将其标注为切分单元,在切分词图中,在查找出的未登录词两侧的节点之间添加一条圆弧用以标注该切分单元;根据切分单元的标注结果确定出最终的切分词图,从该切分词图中确定出概率最大的分词路径,将该分词路径中包含的未登录词与其对应的键值编码序列关联保存到输入法的词库中。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东410室