发明名称 一种识别目标词的方法、装置及系统
摘要 本申请公开了一种识别目标词的方法、装置及系统,以利用多个特征值识别目标词,提高识别准确率和召回率。该方法包括:获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,针对划分得到的分词进行分词组合,获得组合文本数据集合,确定候选词集合与组合文本数据集合的交集,计算交集中每个组合文本数据的指定特征值,按照筛选条件对交集中的组合文本数据进行筛选,将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样,可利用多个特征值识别目标词,通过分类算法获得筛选条件,避免了人为设定造成的误差,提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。
申请公布号 CN102411563A 申请公布日期 2012.04.11
申请号 CN201010295054.7 申请日期 2010.09.26
申请人 阿里巴巴集团控股有限公司 发明人 孙海波;杨扬;陈一宁
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭润湘
主权项 一种识别目标词的方法,其特征在于,包括:获取候选词集合以及特征计算数据;基于最小粒度的文本数据对所述特征计算数据进行分词划分;针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;确定所述候选词集合与所述组合文本数据集合的交集;计算所述交集中包含的每个组合文本数据的指定特征值;根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱