发明名称 确定未登录词的类别的方法和设备
摘要 本发明的实施例公开了一种用于确定未登录词的类别的方法和设备。该方法可以包括步骤基于构词规则从词典中选择所述未登录词的同义词;从文集生成所述未登录词的上下文;以及根据所述未登录词的上下文以及所述同义词,确定所述未登录词所属的类别。本方法和设备能够更加高效准确的确定未登录词的类别。
申请公布号 CN102081602B 申请公布日期 2014.01.01
申请号 CN200910252923.5 申请日期 2009.11.30
申请人 日电(中国)有限公司 发明人 胡长建;赵凯;邱立坤
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 王茂华;李辉
主权项 一种用于确定未登录词的类别的方法,包括:基于构词规则从词典中选择所述未登录词的同义词;从文集生成所述未登录词的上下文;以及根据所述未登录词的上下文以及所述同义词,确定所述未登录词所属的类别;其中可以通过以下任一种方式来根据所述未登录词的上下文以及所述同义词确定所述未登录词所属的类别:统计所述同义词所属的类别;从文集生成每个类别所包含的所有词的上下文,作为所述每个类别的上下文;计算所述未登录词的上下文与每个类别的上下文之间的相似度;以及将与最大相似度相对应的类别确定为所述未登录词所属的类别;或从文集生成所述同义词的上下文;计算所述未登录词的上下文与所述同义词的上下文之间的相似度;根据所述相似度,从所述同义词中提取一个集合;将与所述集合中的、属于相同类别的同义词相对应的相似度进行求和;以及根据求和后的相似度确定未登录词所属的类别;或从文集生成所述同义词的上下文;计算所述未登录词的上下文与所述同义词的上下文之间的相似度;统计所述同义词所属的类别;接收与所述同义词相关联的预定加权因子;利用接收的预定加权因子,对与相关联的同义词相对应的相似度进行加权;根据所述相似度,从所述同义词中提取一个集合;将与所述集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和;以及根据求和后的相似度确定未登录词所属的类别。
地址 100007 北京市东城区东四十条甲22号南新仓国际大厦B栋12层1222室
您可能感兴趣的专利