发明名称 一种递归多层次中文分词方法
摘要 本发明公开了一种递归多层次中文分词方法,包括:对输入的中文文本使用最大匹配算法进行中文分词,和在当前字典树中对所生成的分词进行选择性地屏蔽,然后重复进行利用屏蔽后的字典树对输入的中文文本再次使用最大匹配算法进行中文分词,和对所生成的分词进行选择性地屏蔽的步骤,直至所生成的各个分词在当前字典树中都不存在非单字前缀词,结束分词过程,输出分词结果并恢复屏蔽前的字典树。本发明的递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。
申请公布号 CN102799676A 申请公布日期 2012.11.28
申请号 CN201210249911.9 申请日期 2012.07.18
申请人 上海语天信息技术有限公司;上海莱希信息科技有限公司 发明人 吕强;陶导;方强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海旭诚知识产权代理有限公司 31220 代理人 郑立
主权项 一种递归多层次中文分词方法,其特征在于,包括如下步骤:步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;步骤2,在当前字典树中对步骤1中所生成的分词进行选择性屏蔽;步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;步骤5,在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
地址 201204 上海市浦东新区毕升路299弄富海商务苑11号楼402室