发明名称 |
词典更新方法及装置 |
摘要 |
一种词典更新方法及装置,所述词典更新方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。所述词典更新方法及装置可以降低词典维护成本,提升词典更新效率。 |
申请公布号 |
CN105389349A |
申请公布日期 |
2016.03.09 |
申请号 |
CN201510706335.X |
申请日期 |
2015.10.27 |
申请人 |
上海智臻智能网络科技股份有限公司 |
发明人 |
张昊;朱频频 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
吴敏 |
主权项 |
一种词典更新方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。 |
地址 |
201803 上海市嘉定区金沙江西路1555弄398号7层 |