一种递归多层次中文分词方法,申请号CN201210249911.9-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种递归多层次中文分词方法
摘要	本发明公开了一种递归多层次中文分词方法，包括：对输入的中文文本使用最大匹配算法进行中文分词，和在当前字典树中对所生成的分词进行选择性地屏蔽，然后重复进行利用屏蔽后的字典树对输入的中文文本再次使用最大匹配算法进行中文分词，和对所生成的分词进行选择性地屏蔽的步骤，直至所生成的各个分词在当前字典树中都不存在非单字前缀词，结束分词过程，输出分词结果并恢复屏蔽前的字典树。本发明的递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上，结合递归和多层次分词，实现了保证切分粒度的同时，在各个层次的分词中都消除歧义，提高了分词的准确度。
申请公布号	CN102799676A	申请公布日期	2012.11.28
申请号	CN201210249911.9	申请日期	2012.07.18
申请人	上海语天信息技术有限公司;上海莱希信息科技有限公司	发明人	吕强;陶导;方强
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海旭诚知识产权代理有限公司 31220	代理人	郑立
主权项	一种递归多层次中文分词方法，其特征在于，包括如下步骤：步骤1，利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词，生成当前分词和当前分词层次；步骤2，在当前字典树中对步骤1中所生成的分词进行选择性屏蔽；步骤3，将步骤2中选择性屏蔽后的字典树作为当前字典树；步骤4，判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词，若有一个分词存在非单字前缀词，则继续进行上述步骤1到步骤3，若各个分词都不存在非单字前缀词，则进入步骤5；步骤5，在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树，并输出分词结果。
地址	201204 上海市浦东新区毕升路299弄富海商务苑11号楼402室

您可能感兴趣的专利

制备烷基羟基烷基纤维素的方法

Method for manufacturing an upholstered seating furniture easily mountable, transportable and stowable

POLICONDENSACION DE POLIESTER CON CATALIZADOR DE OXALATO DE TITANILO Y POTENCIADOR DE CATALIZADOR, COMPOSICION POTENCIADA DE CATALIZADOR DE OXALATO DE TITANILO Y POLIESTER QUE LA CONTIENE

UNIVERSAL HYDRAULIC COUPLING

COATINGS CONTAINING FLUORINATED ESTERS

ORTHOPEDIC CAST WALKER BOOT

Steering wheel with airbag

Support sleeve for a washing brush

Disperse two or multi-phase systems linked by covalent bonds into a network

Method and system of dynamically moving objects between heterogeneous execution environments

Device for adjusting the position of a pallet-stone mounted in clockwork escapement pallets

Impeller made of sheet metal

Slurry containing an agglomerated carbonate-containing pigment

Method for determining path data

Trigger valve, in particular for high pressure area

Framestructure in mullion-transom hollow profile form

Manhole closure

Breathing apparatus and facepiece therefor

CALL DATA-DETECTION METHOD