发明名称 |
基于组合词的词典挖掘方法及系统 |
摘要 |
本发明提出一种基于组合词的词典挖掘方法及系统。其中,方法包括以下步骤:服务器获取多个语料并将多个语料中每一个句子分词为多个文节;服务器从多个文节中挖掘特殊文节;服务器对特殊文节进行过滤和筛选以获得特殊文节中的组合词;服务器通过特殊文节中的组合词的出现频次生成组合词词典;服务器通过组合词词典更新输入法模型。根据本发明实施例的方法,通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典,使得用户输入特殊文节的组合词的一部分内容时,服务器将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中,从而提高了用户的录入速度,方便用户使用。 |
申请公布号 |
CN104077298A |
申请公布日期 |
2014.10.01 |
申请号 |
CN201310102769.X |
申请日期 |
2013.03.27 |
申请人 |
百度国际科技(深圳)有限公司 |
发明人 |
吴先超;何径舟;龚天雪 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
宋合成 |
主权项 |
一种基于组合词的词典挖掘方法,其特征在于,包括以下步骤:服务器获取多个语料并将所述多个语料中每一个句子分词为多个文节;所述服务器从所述多个文节中挖掘特殊文节;所述服务器对所述特殊文节进行过滤和筛选以获得特殊文节中的组合词;所述服务器通过所述特殊文节中的组合词的出现频次生成所述组合词词典;所述服务器通过所述组合词词典更新输入法模型。 |
地址 |
518057 广东省深圳市南山区高新中二道5号生产力大楼D单元三层301 |