发明名称 |
通过预计算优化搜索引擎分词的方法及搜索引擎分词装置 |
摘要 |
本发明提出一种通过预计算优化搜索引擎分词的方法,包括以下步骤:按照Trie树子节点的数目对分词词典中字符进行编码以生成序列码,其中,对所述Trie树子节点的数目多的字符优先进行编码;根据所述序列码进行预计算以生成双数组Trie树的第一数组和第二数组;根据所述序列码、所述第一数组和所述第二数组在所述分词词典中进行分词查询。本发明提高了搜索引擎分词的空间利用率,加快了分词模块的载入速度,增强了线上服务的稳定性。本发明还公开了一种搜索引擎分词装置。 |
申请公布号 |
CN102651026B |
申请公布日期 |
2015.02.18 |
申请号 |
CN201210096557.0 |
申请日期 |
2012.04.01 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
阮星华;张敏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
宋合成 |
主权项 |
一种通过预计算优化搜索引擎分词的方法,其特征在于,包括以下步骤:按照Trie树子节点的数目对分词词典中字符进行编码以生成序列码,其中,对所述Trie树子节点的数目多的字符优先进行编码,其中,计算每个字符的Trie树子节点的数目,并根据所述Trie树子节点的数目递减的顺序依次对所述字符的内码进行哈希计算以生成所述序列码,并根据所述字符在所述分词词典中词语中的位置确定所述字符的节点位置;根据所述序列码进行预计算以生成双数组Trie树的第一数组和第二数组,其中,根据所述Trie树子节点的数目从Trie树子节点数最多的节点开始依次将所述序列码中的字符填入所述第一数组和所述第二数组,其中,对于所述Trie树子节点的数目较少的转移字符,在填入所述第一数组和所述第二数组时采用从前向后回溯的方式;以及根据所述序列码、所述第一数组和所述第二数组在所述分词词典中进行分词查询。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |