发明名称 提供多粒度分词结果的方法及其装置
摘要 本申请公开了一种提供多粒度分词结果的方法及其装置,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。该方法包括:建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
申请公布号 CN102479191A 申请公布日期 2012.05.30
申请号 CN201010555763.4 申请日期 2010.11.22
申请人 阿里巴巴集团控股有限公司 发明人 孙健;侯磊;唐晶明;初敏;廖晓玲;许冰婧;彭仁刚;杨扬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭润湘
主权项 一种建立分词词典的方法,其特征在于,包括:根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;获取待分类词条,并确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱