发明名称 中文字串的词汇切分系统及其方法
摘要 本发明公开了一种中文字串的词汇切分系统及其方法,在确认词汇库有自中文字串撷取的组合词汇时,通过撷取其与下一字作为组合累加词汇并继续查找,反之则撷取该组合词汇的尾字与其下一字进行查找的技术手段,可以解决现有技术在切分中文字串的过程中所存在的产生大量无效切分字词的问题,借此可于兼顾切分速度与字句原意之下,达到降低系统负担的技术功效。
申请公布号 CN101859294A 申请公布日期 2010.10.13
申请号 CN200910132699.6 申请日期 2009.04.07
申请人 英业达股份有限公司 发明人 邱全成;陈领
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市浩天知识产权代理事务所 11276 代理人 许志勇
主权项 一种中文字串之词汇切分系统,其特征在于,包含:一词汇库,包含有复数个词汇;一撷取模块,用于自一中文字串撷取其第一字至第二字为第一组合词汇后,依据该第一组合词汇其后续查找之有无,选择撷取该第一组合词汇与其下一字为第一组合累加词汇,或是撷取该第一组合词汇的尾字与其下一字为第二组合词汇;及一查找模块,用于在该词汇库依序进行该第一组合词汇的匹配查找,以及该第一组合累加词汇或该第二组合词汇的匹配查找;其中,当该查找模块确认该词汇库有该第一组合累加词汇时,撷取模块选择撷取该第一组合累加词汇与其下一字为次第一组合累加词汇,反之,则撷取该第一组合累加词汇的尾字与其下一字为该第二组合词汇,由该查找模块进行该次第一组合累加词汇或该第二组合累加词汇的匹配查找,依此类推至任一组合词汇或组合累加词汇包含有该中文字串的最终字为止。
地址 中国台湾台北市