发明名称 |
基于关键字的字符序列分割方法及装置 |
摘要 |
本发明涉及一种基于关键字的字符序列分割方法及装置,其方法包括:加载关键字,并建立关键字列表;根据关键字列表中关键字属性的优先级对关键字进行排序;依据排序结果,以关键字为最小分割单位,通过预定的分词算法对字符序列进行分割。本发明通过定义关键字的优先级,建立关键字列表,以关键字列表中各关键字的优先级排列顺序,同时以关键字为最小分割单位,按照预定的分词算法对字符序列进行分割,提高了分词准确率及新词识别能力,避免了分词歧义,可以满足公式、函数校验、解析等对分词要求严格的应用场景。 |
申请公布号 |
CN102819524B |
申请公布日期 |
2015.06.03 |
申请号 |
CN201110265973.4 |
申请日期 |
2011.09.08 |
申请人 |
金蝶软件(中国)有限公司 |
发明人 |
阳荣 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
深圳市世纪恒程知识产权代理事务所 44287 |
代理人 |
胡海国 |
主权项 |
一种基于关键字的字符序列分割方法,其特征在于,包括以下步骤:加载关键字,并建立关键字列表;根据所述关键字列表中关键字属性的优先级对所述关键字进行排序;依据排序结果,以所述关键字为最小分割单位,通过预定的分词算法对字符序列进行分割;其中,所述依据排序结果,以所述关键字为最小分割单位,通过预定的分词算法对字符序列进行分割的步骤包括:将字符序列作为整段压入栈中;根据排序优先级从关键字列表中取出关键字;获取所述关键字在所述字符序列中的位置索引号;根据所述位置索引号对所述字符序列进行分割;所述根据位置索引号对所述字符序列进行分割的步骤包括:当所述位置索引号等于第一预定值时,将所述关键字作为分段压入临时栈中;当所述位置索引号大于第一预定值时,将所述整段中位于所述关键字前面的内容作为分段压入所述临时栈中;当所述位置索引号等于第二预定值时,将所述整段压入所述临时栈中;若所述关键字后面还存在内容,则将所述关键字后面的内容作为分段压入所述临时栈中;将所述临时栈中的各分段内容依次压入所述栈中;从所述关键字列表中取出下一级关键字,并根据所述下一级关键字分别对所述栈中的各分段进行分割,直至所述关键字列表被取空。 |
地址 |
518057 广东省深圳市南山区深南大道市高新技术工业村W1-B4 |