发明名称 识别同义词的方法、装置及利用其进行搜索的方法和装置
摘要 本申请公开了一种识别中文同义词的方法和装置以及利用其进行搜索的方法和装置,所述方法包括:a、获得需要识别的任意两个中文词;b、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后,执行步骤c;c、判断所述需要识别的两个中文词是否都存在于预设的知识库中,若是,则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型;d、若查询到的每个中文词的权重最大的最小粒度类型相等,则判定所述两个中文词为同义词,否则判定所述两个中文词为非同义词。应用本申请实施例,使得识别出的同义词准确率大大提高,保证了同义词的识别效果。
申请公布号 CN101872351B 申请公布日期 2012.10.10
申请号 CN200910137633.6 申请日期 2009.04.27
申请人 阿里巴巴集团控股有限公司 发明人 董静;邢飞;郭宁;侯磊;张勤
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 马敬;逯长明
主权项 一种识别中文同义词的方法,其特征在于,包括:a、计算服务器获得需要识别的任意两个中文词;b、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后,执行步骤c;c、判断所述需要识别的两个中文词是否都存在于预设的知识库中,若是,则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型;d、若查询到的每个中文词的权重最大的最小粒度类型相等,则判定所述两个中文词为同义词,否则判定所述两个中文词为非同义词。其中,所述知识库中具有已定义好的至少一个层次类型,所述层次类型是分层次的,每个层次对应一个粒度;知识库中的每个词都会对应到至少一个层次类型,每个词具有权重值,该权重值表明该词属于该类型的概率。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱